


1989 年 ,作者 到 美国 新 墨 西 可 州立 大 学 计算 机 科学 系 做 访问 学 者 ,开始 学 习 人 工 神经 网 络 ， 
回国 后 ,在 哈尔滨 工业 天 学 为 硕士 研究 生 开设 相应 的 选修 课 鹅 。 本 书 是 在 多 年来 所 用 的 讲稿 的 
基础 上 修改 形成 的 
人 工 神经 网 络 的 发 展 几 经 起 优 , 目 前 已 有 很 广泛 的 应 用 。 从 作者 开始 接触 该 领域 时 的 未 身 
感 党 ,到 了 解 到 的 中 外 学 生 初学 人 工 神 经 网 络 所 反映 出 的 情况 ,我 感到 ,开始 的 时 候 , 总 有 一 种 比 
获 讲 秘 的 感觉 ,加 上 有 的 贮 料 在 介绍 人 工 神经 网 络 对 比较 重视 深入 和 全 面 ,偏重 于 理论 ,更 使 和 
祝 学 者 在 一 定 的 时 间 内 难以 获得 适当 的 进步 ,尤其 是 对 阅 络 基本 模型 的 形成 感 烈 有 很 大 的 困难 
为 解决 此 问题 ,本 书 主要 介绍 人 工 神经 网 络 的 基本 构成 和 基本 的 网 络 模 型 , 意 在 策 读 者 对 人 工 神 
经 网 络 有 一 个 基本 的 了 解 ,为 他们 今后 从 事 人 工 神经 网 络 的 研究 和 应 用 打下 一 定 的 基础 。 复 二 
个 问题 是 人 工 神经 网 络 的 实验 实现 和 应 币 实 现 后 题 。 旧 前. 人工 神经 网 络 有 硬件 实现 和 元 食 模 
拟 商 种 方式 。 因 条 件 所 限 , 绝 大 多 数 初 学 者 都 是 通过 软件 的 模拟 实现 来 体验 其 功能 及 运行 特性 
的 而 县 ,国内 大 多 数 的 应 用 也 是 用 款 件 实现 的 。 因 此 ,本 书 在 介绍 基本 的 人 工 坤 经 网 络 模型 的 
同时 ,还 注意 从 软件 实现 的 角度 介绍 祖 应 的 算法 ,甚至 在 最 初 的 典型 模型 的 介绍 中 ,还 给 出 了 等 
法 的 具体 实现 。 所 以 ,本 避 的 基本 目的 是 :通过 对 大 工 神经 网 络 基本 构造 和 基本 模型 的 介绍 ,使 
演 者 对 其 基本 方法 有 一 个 基本 的 营 握 ,并 能 掌握 如 何 设计 出 适当 的 计算 遍 模 拟 程序 ,将 学 生 引 入 
人 工 禹 经 将 络 及 其 应 立 用 的 研究 领域 。 第 三 是 关于 教育 面向 21 世纪 的 问题 。21 世纪 的 科 装 进 

步 社 会 发 展 将 呈现 更 高 的 速度 。 新 世纪 对 学 生 的 要 求 的 最 大 不 同 是 对 其 创新 以 及 创新 性 地 接 
入 新 技术 的 能 力 有 着 灵 商 的 要 求 因而 ,除了 知识 的 传授 之 外 ,更 重要 的 是 如 强 对 学 生 创 新 能 力 
的 培养 。 总 结 从 方面 的 经 验 ,作者 认为 要 想 按照 时 代 的 要 求 .实现 对 学 生 * 知 识 、 能 力 、 素 质 " 三 方 
机 的 教育 ,加 强 对 学 生 创新 能 力 的 培养 ,必须 重视 对 知识 的 “载体 属性 "的 开发 利用 ,增加 教育 中 
的 理性 成 分 。1999 年 下 半年 ,作者 提出 了 "研究 型 救 学 "的 概念 , 送 望 能 尘 现在 流行 的 知识 型 孝 
学 改 为 "研究 型 教学 ,以便 使 学 生 建 立 起 强烈 的 探索 意识 , 接 养 其 创新 能 力 。 对 此 ,本 人 在 写作 
中 也 做 了 探索 性 的 党 试 。 在 内 容 组 织 上 , 湿 有 去 追求 知识 的 全 面 、 完 融 , 丁 是 希望 通过 对 一 些 典 
型 网 络 模型 的 用 述 ,向 读者 介绍 问题 的 求解 方法 ,让 其 是 人 工 神经 网 络 方法 。 虽 然 有 多 年 的 加 
昧 ,得 是 “研究 型 教学 "的 概念 才 被 提出 , 永 圳 要 进一步 地 丰富 ,所 以 这 里 只 能 说 是 一 个 非常 初步 
的 尝试 。 

其 次 ,作为 人 工 神经 网 络 的 入 门 ， 作者 希望 通过 对 人 工 神经 网 络 及 其 基 本 网 络 模 型 的 介绍 ， 
使 学 生 初 步 了 解 乔 能 系统 描述 的 基本 模型 ,掌握 人 工 神经 网 络 的 基本 概念 、 单 层 网 .多 层 油 循环 
问 等 各 惠 基 本 网 络 模型 的 结构 、 蛙 点 、 典 型 训练 算法 , 迁 行 方式 典型 问题 ,软件 实 现 方法 短 ， 这 
忒 主要 算 作 是 “知识 、 能 力 ,素质 " 三 方面 教育 的 知识 基础 部 分 。 另 外 .本 人 还 希望 读者 能 将 所 学 
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的 知识 与 自己 未 来 研究 课题 (包括 研究 生 论文 阶段 的 研究 课题 ) 结 合 起 来 ,通过 查阅 适当 的 参考 
文献 ,达到 跑 直 富 学 习 内 容 ,又 有 一 定 的 研究 和 应 用 的 目的 。 所 以 ,希望 本 书 能 够 算 明 吻 懂 、 便 于 
软件 实现 、 鼓 励 研 究 探索 。 

本 书 分 八 牵 对 人 工 神经 网 络 进行 介绍 。 第 一 章 介绍 智能 的 概念 、 智 能 系统 的 特点 及 其 描述 
基本 模型 以 及 人 工 神经 网 络 的 特点 ,发 展 历史 。 第 二 章 为 人 工 神经 网 络 基础 ,概要 介绍 人 工 神经 
网 络 的 一 般 特性 ,主要 包括 :生物 神经 网 络 模型 人 工 神 经 元 懂 型 与 典型 的 激励 函数 ;人 工 神经 网 
络 的 基本 拓扑 特性 存储 类 型 及 映 象 .训练 。 第 三 章 介 绍 感知 强 与 线性 不 可 分 问题 .Hebb 学 习 
律 \.Delta 规则 。 第 四 章 介 绍 BP 网 络 的 构成 及 其 训练 过 各 。 第 五 章 介绍 对 传 网 的 网 络 结构 、 训 
练 。 第 六 章 介 绍 统计 方法 ,主要 包括 :统计 网 络 的 基本 训练 算法 、 模 氢 退 火 算法 与 收 数 分 析 、 
Cauchy 训 绒 , 人 工 热 与 临 办 如 度 在 训练 中 的 使 用 。 第 七 章 介绍 循环 网 络 ,主要 包括 :循环 网 络 的 
组 织 ,稳定 性 分 析 ; 统 计 Hopfield 网 与 Holtzmann 机 ;基本 以 联 存储 砚 络 的 结构 及 训练 。 第 八 章 
介绍 简单 ART 模型 的 总 体 结构 、 训 练 、 实 现 。 

国防 科技 大 学 的 明 守 仁 教 援 审阅 了 原稿 ,提出 了 许多 宝贵 的 意见 和 建议 ,在 此 对 胡 先 和 认真 
负责 的 精神 以 及 对 作者 的 帮助 和 爱护 表示 让 诚 的 谢意 ! 由 于 作者 水 平 有 限 , 世 中 错误 和 不 当 之 
处 在 所 难免 , 克 请 读者 批评 指正 。 
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第 -- 章 引言 


早 在 电子 计算 机 出 现 之 前 ,人 类 就 已 经 开始 探索 智能 的 秘密 ,并 月 期 盼 着 有 -- 天 可 以 重新 构 
造 人 脑 ,让 其 去 代替 人 类 完成 相应 的 工作 。 这 种 日 标 ~* 直 鼓励 着 人 们 不 断 地 努力 。 大 体 上 讲 , 人 
类 对 人 [智能 的 研究 可以 分 成 两 种 方式 ,这 两 种 方式 对 应 闭 两 种 不 同 的 技术 :传统 的 人 工 逢 能 技 
本 各 基于 人 工 神经 网 络 的 技术 。 实 际 上 ,这 两 种 技术 是 分 别 从 心理 的 角度 和 生理 的 角度 对 智能 
进行 模拟 的 。 因 此 ,它们 分 别 适 应 于 认识 和 处 理事 物 ( 务 ) 的 不 同方 面 。 月 前 ,人 们 除了 分 别 从 不 
同 的 角度 对 这 两 种 技术 进行 钱 究 外 ,也 已 开始 探讨 如 何 能 将 这 两 种 技术 更 好 地 结合 起 米 ,并 且 已 
取得 了 良好 的 效果 。 人 们 期 待 着 ,和 到 过 大 家 的 不 局 努 力 ,在 不 久 的 将 米 , 能 在 这 两 种 技术 的 研究 
上 以 及 它们 的 有 机 结 台 方面 有 所 突破 ,也 希望 在 方法 上 有 一 个 新 的 突破 ,真正 打开 智能 的 大 门 。 

本 章 首 先 简要 介绍 智能 和 人 工 智 能 ,然后 简要 介绍 人 工 神经 网 络 的 基本 特点 及 其 发 展 过 程 ， 
使 读者 对 有 关 的 概念 有 一 个 基本 的 了 解 。 








1.1 人 工 神 经 网 络 的 提出 


人 工 神经 网 络 (Artificial Neural Netwotks, 简 记 作 ANN) ,是 对 人 类 大 脑 系统 的 一 阶 特 性 的 
-种 描述 。 简 单 地 讲 , 它 是 一 个 数学 模型 ,可 以 用 电子 线路 来 实现 ,也 可 以 用 计算 机 程序 来 模拟 ， 
是 人 工 智能 研究 的 一 种 方法 。 内 此 ,需要 先 介绍 人 工 智能 的 一 些 基本 内 容 。 


1.L.L_ 乔 能 与 人 工 竹 能 


一 \ 智 能 的 含义 

众所周知 ,人 关 是 具有 智能 的 。 因 为 人 类 能 记忆 事物 ,能 有 目的 地 进行 一 些 活动 ,能 通过 学 
习 效 得 知识 ,并 能 在 后 续 的 学 习 中 不 断 地 丰富 知识 ,还 有 一 定 的 能 力 运用 这 些 知识 去 探索 未 知 的 
东西 ,去 发 现 ,去 创新 。 那 么 ,智能 的 含义 究竟 是 什么 ? 如 疝 肇 划 它 呢 ? 

粗略 地 讲 , 智 能 是 个 体 有 目的 的 行为 ,合理 的 思维 ,以 及 有 效 的 适应 环境 的 综合 能 力 。 也 可 
以 说 ,智能 是 个 体 认识 客观 事物 和 运用 知识 解决 问题 的 能 力 。 

按照 上 述 描述 ,人 类 个 体 的 智能 是 一 种 综合 能 力 。 具 体 来 讲 , 可 以 包含 如 下 八 个 方面 的 能 





力 : 
1. 感知 与 认识 客观 事物 ,客观 世界 和 自我 的 能 力 
这 是 人 类 在 自然 界 中 生存 的 最 基本 的 能 力 ,是 认识 世界 .推动 社会 发 展 的 基础 。 人 类 首先 必 
须 感 知客 观 拱 界 ,使 客观 世界 中 的 事物 在 自己 的 头脑 中 有 一 个 反映 ,并 根据 事物 反 吻 出 来 的 不 同 
特性 将 事物 区 分 开 来 。 这 是 一 切 活 动 的 基础 。“ 假 物 必 以 用 者 ", 只 有 认识 了 事物 ,我 们 才能 制造 
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出 支持 生存 .生活 的 开具 , 才 有 可 能 不 断 地 提高 人 类 的 生存 能 力 , 并 不 断 地 改善 人 类 的 生活 质量 。 
因此 可 以 说 ,感知 是 智能 的 基础 。 

2. 通过 学 习 取 得 经 验 与 积累 知识 的 能 力 

这 是 人 类 在 自然 界 中 能 够 不 断 发 展 的 最 基本 的 能 力 。 通 过 学 习 不 断 地 取得 经 验 ,不断 地 积 
累 知识 ,又 进一步 地 增强 了 人 类 认识 客观 事物 .客观 世界 和 自我 的 能 力 ,从 而 推动 人 类 社会 不 断 
发 展 。 而 且 , 随 着 社会 的 发 展 , 知 识 的 积累 不 仅 孤 立地 发 生 在 作为 个 体 的 人 的 身上 ,更 重要 的 是 
这 种 积 汉 能 够 代 代 相传 。 先 辈 们 获取 的 经 验 ,知识 遂 过 一 定 的 形式 传 给 下 一 代 。 正 是 这 样 , 才 使 
得 人 类 所 掌握 的 知识 越 来 越 多 , 越 来 越 丰富 ,以 至 于 人 们 称 现 在 旦 知识 爆炸 的 时 代 。 这 表明 , 随 
着 社会 的 进步 ,人 类 的 知识 积累 速度 不 断 加 快 。 

3. 埋 解 知识 ,运用 知识 和 经 验 分 析 , 般 决 问题 的 能 力 

这 一 能 力 可 以 算 作 是 智能 的 高 级 形式 ,是 人 类 对 世界 进行 适当 的 改造 .推动 社会 不 断 发 展 的 
基本 能 力 。 

有 了 知识 以 后 ,要 使 其 发 挥 作用 ,必须 运用 这 些 知识 和 经 验 去 分 析 和 解决 实际 问题 。 所 以 ， 
作为 教育 的 重要 目标 ,我 们 要 努力 培养 学 生 认 识 问题 分析 问 题 和 解决 问题 的 能 力 。 培 根 说 , 知 
识 就 是 力量 。 他 指 的 是 ,当知 识 得 到 恰当 的 应 用 后 ,会 发 挥 巨大 的 作用 。 所 以 ,大 师 们 一 直 在 告 
诚 人 们 ,不 要 只 读书 ,尤其 不 要 死 污 书 ,要 在 灵活 地 运用 书本 上 的 知识 去 解决 实际 问题 .并 在 应 用 
中 不 断 地 丰富 知识 上 下 功夫 。 

4. 联想 ,推理 ,判断 ,决策 的 能 力 

这 是 智能 的 高 级 形式 的 又 一 方面 。 

人 类 通过 这 种 能 力 , 去 促进 对 未 来 的 甚至 是 未 知 的 东西 的 预测 和 认识 ,使 我 们 具有 了 一 定 的 
判断 未 来 ,把握 未 来 的 能 方 ,使 我 们 对 未 来 的 东西 也 能 有 所 准备 ,从 而 进一步 增强 了 我 们 在 这 个 
世界 上 生存 并 不 断 发 展 的 能 力 。 我 们 说 ,无 论 是 学 习 、 工 作 还 是 生活 ,都 有 “主动 "和 ”被 动 "之 分 。 
联想 ,推理 ,判断 、 决 策 的 能 力 是 “主动 "的 基础 ;同时 , 它 也 是 我 们 有 时 要 "主动 "地 采用 "被动 " 策 
略 去 更 有 效 地 解决 问题 的 基础 -一 -因为 我 们 较 好 地 掌握 了 事物 发 展 的 趋势 。 

5. 运用 语言 进行 抽象 .概括 的 能 力 

人 类 的 语言 是 最 为 丰富 的 , 它 除 了 可 以 表达 实际 世界 中 的 事物 外 ,还 可 以 表达 出 人 类 的 情感 
以 及 一 些 直观 不 可 见 的 东西 ,这 些 使 得 我 们 的 生活 更 加 丰富 多 彩 。 抽 象 和 概括 已 成 为 人 类 认识 
现实 世界 和 未 来 世界 的 一 个 重要 工具 。 从 更 高 的 形式 来 看 , 它 是 形式 化 描述 的 基础 ,市 形式 化 措 
述 则 是 计算 机 化 、 自 动 化 的 基础 。 

正 是 有 了 语言 ,人 类 才 有 了 交流 ,而且 这 种 实 流 被 广泛 地 扩展 到 了 人 与 机 器 之 间 , 使 得 机 器 
能 更 好 地 完成 人 类 所 交付 的 各 项 任务 。 丰 富 的 语言 抽象 和 槛 括 能 力 ,使 得 其 他 方面 的 能 力 可 以 
更 充分 地 被 发 挥 出 来 。 

上 述 这 五 种 能 力 ,被 认为 是 人 类 智能 最 基本 的 能 力 ,从 一 定 的 意义 上 讲 ,后续 的 三 种 能 力 是 
这 五 种 能 力 的 新 的 综合 表现 形式 。 

6. 发 现 ,发 明 ,创造 ,创新 的 能 力 

这 种 能 力主 要 是 前 面 的 第 三 种 能 力 的 一 种 高 级 表现 形式 ,在 这 旦 ,我 们 强调 的 更 多 的 是 创新 
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能 力 。 因 为 只 有 创新 ,才能 有 活力 ,才能 不 断 地 发 展 。 人 类 正 是 在 不 断 地 有 所 发 明 ` 有 所 创造 中 
前 进 的 。 

7. 实时 、 迅 速 . 合 理 地 应 付 复杂 环境 的 能 力 

这 是 实时 反应 能 力 。 表 示人 类 对 自己 过 到 的 环境 及 事务 可 以 做 出 适当 的 反应 。 因 为 世界 上 
几乎 所 有 的 事务 都 将 时 间作 为 ~ 个 “ 自 变量 "而 随 其 变化 而 变化 ,人 类 面 对 繁 乱 复 杂 的 环境 ,必须 
有 有 能力 做 出 "实时 "恰当 的 反映 :， 从 一 定 的 意义 上 说 ,这 也 是 人 类 生存 的 基本 能 力 。 

8, 预测 洞察 事物 发 展 , 变 化 的 能 力 

根据 历史 的 经 验 ,根据 现实 的 信息 ,判断 事物 的 未 来 发 展 ,以 对 未 来 将 出 现 的 事务 做 出 必要 
的 准备 。 

那么 ,如 何 使 类 似 计 算 机 这 样 的 设备 去 横 拟 人 类 的 这 些 能 力 呢 ? 这 就 是 人 工 物 能 所 研究 的 
问题 。 

二 \ 人 工 智 能 

人 工 智能 (Artificial Intelligence, 简 记 为 AIJ) 最 初 是 在 1956 年 被 引 人 的 。 它 研究 怎样 让 计算 
机 模仿 人 脑 从 事 推理 ,设计 ,思考 .学习 等 思维 活动 .以 解决 和 处 理 较 复 杂 的 问题 ， 简 单 地 来 说 ， 
人 工 智能 就 是 研究 如 何 让 计算 机 模仿 人 脑 进行 工作 。 

可 以 将 研究 人 工 智 能 的 旨 的 归纳 为 两 个 方面 : 

1. 增加 人 类 探索 世界 推动 社 会 前 进 的 能 力 

人 类 从 一 开始 就 注意 到 通过 制造 和 使 用 工具 来 加 强 和 延 仲 自己 的 生存 能 力 。 在 初始 阶段 ， 
这 种 工 基 多 是 用 于 扩展 人 类 的 体力 ,例如 杠杆 拖拉机、 各 类 机 械 等 ,它们 主要 致力 于 放大 ,聚集 、 
集中 ,产生 “力量 "。 后 来 ,从 考虑 如 何 让 "工具 "帮助 人 类 完成 计算 开始 ,人 们 致力 于 研究 如 何 能 
使 “工具 "代替 人 类 进行 思维 ,哪怕 是 “部 分 地 " 代 荐 ! 当 计算 机 出 吉 之 后 ,更 进一步 地 促使 人 类 控 
索 如 何 使 计算 机 模拟 人 的 感知 \ 思 维和 行为 的 规律 ,进而 设计 出 具有 类 似 人 类 的 某 些 智能 的 计算 
机 系统 ,从 而 达到 延 伸 和 扩展 人 类 智能 和 能 力 的 目的 。 

2. 进一步 认识 自己 

到 目前 为 止 , 虽 然 以 生物 神经 科学 家 、 医 学 解剖 学 家 为 首 的 各 专业 的 科学 家 进行 了 数 代 的 大 
量 艰 苦 的 研究 ,人 类 对 自身 的 大 脑 还 是 知之 甚 少 ,在 很 大 程度 上 , 它 的 运行 机 理 还 是 一 个 未 揭 开 
的 谜 。 研 究 人 工 智 能 ,可 以 从 已 知 的 一 些 绪论 (不 排除 一 些 狂想) 人手, 从 人 的 大 脑 以 外 来 探讨 它 
的 活动 机 理 。 有 人 将 这 种 做 法 叫做 用 物化 了 的 智能 去 考察 和 研究 人 脑 智 能 的 物质 过 程 和 规律 。 
这 也 许 是 人 类 揭 开 自 身 大 脑 之 谜 的 一 个 有 将 途径 。 人 们 相信 ,这 种 探索 至 少 可 以 为 我 们 认识 大 
脑 提 供 帮 助 。 

由 于 人 类 对 自己 的 大 脑 确实 知之 甚 少 ,所 以 ,自从 “人 工 智能 “一 词 诞生 以 来 ,人 们 从 不 同 的 
出 发 点 方法 学 以 及 不 同 的 应 用 领域 出 发 ,进行 了 大 量 的 研究 。 正 是 由 于 存在 这 些 不 同 ,导致 了 
对 人 工 智 能 的 几 种 不 同 的 认识 ,也 就 形成 了 不 同 的 学 术 流派 。 较 有 代表 性 的 包括 ,符号 主义 (或 
叫做 符号 / 迎 辑 主义 ) 学 派 ,联接 主义 (或 者 叫做 并 行 分 布 处 理 ) 学 派 ,进化 主义 (或 者 叫做 行动 / 响 
应 ) 学 派 。 

















1.1.2 物理 符号 系统 


人 们 常 齐 ,计算 机 世界 就 是 数据 处 理 世 界 ,而 数据 是 从 现实 世界 中 抽象 出 来 的 信息 世界 的 形 
式 化 描述 的 结果 。 当 然 , 这 种 形式 化 系统 的 不 同 , 会 导 臻 数据 世界 的 不 同 。 所 以 ,信息 是 现实 在 
人 脑 中 的 反映 ,而 数据 则 是 信息 的 一 种 次 现形 式 . 如 图 1- 1 所 示 。 信 息 不 会 随 其 载体 的 变化 而 
变化 ,而 数据 则 是 随 其 载体 的 变化 而 变化 的 。 例 如 ,2" 在 十 进 制 中 用 阿拉 伯 数 字 表示 成 “2”, 而 
在 二 进 制 中 又 被 才 沙 成 "10", 在 计算 机 内 部 , 它 又 被 用 高 , 低 电 平 表 示 出 来 。 因 此 ,信息 需要 在 一 
定 的 载体 上 以 某 种 规定 的 形式 囊 达 出 来 。 习 惯 上 ,人 们 用 一 系列 的 基本 符号 以 及 组 全 这些 符 导 
前 一 些 规则 去 表达 一 些 信息 和 行为 。 这 些 基本 符号 以 及 组 合 这 些 符号 的 规则 就 是 所 谓 的 物理 符 
导 系 统 。 


人 脑 的 反映 形式 化 


现实 天 一- 一- 一 一 > 信息 一 数据 


物理 系统 一 一 一 一 一 -一 -一 一 ”物理 符号 系统 


表现 智能 


图 1- 1 物理 符号 系统 用 于 对 物理 系统 的 描述 


物理 符号 系统 是 Newell 和 Simon 在 1967 年 提出 的 假说 ,该 假说 认为 : 

一 个 物理 系统 表现 智能 行为 的 充 要 条 件 是 它 有 一 个 物理 符号 系统 。 

这 就 是 说 ,物理 符号 条 统 需要 有 一 组 称 为 符号 的 实体 组 成 ,它们 都 是 物理 模型 ,可 以 在 另 一 
类 称 为 符 叶 结构 的 实体 中 作为 成 分 出 现 ,以 构成 更 高 级 别 的 系统 。 

在 这 里 ,人 们 希望 适 过 抽象 ,用 一 系列 物理 符号 及 其 相应 的 组 成 规则 ,来 表达 一 个 物理 系统 
的 存在 和 运行 。 例 如 简单 的 整数 及 其 送 算 系 统 、 实 数 及 其 运算 系统 ,数理 迎 辑 符号 系统 。 传 统 的 
人 工 智 能 技术 就 是 以 物理 符号 系统 为 基础 的 。 在 这 里 ,问题 必须 经 过 形式 化 处 理 后 才能 被 表达 、 
处 理 。 

要 想 实 现 对 事务 ( 物 ) 的 形式 化 措 述 ,第 一 步 必 须 对 其 进行 适当 的 抽 条 。 然 而 我 们 知道 ,在 扫 
象 中 ,需要 会 弃 一 些 特性 , 癌 时 保留 一 些 特性 。 但 是 ,世界 的 千 善 万 别 要 求 物 理 符号 系统 能 较 好 
地 去 表达 我 们 要 求 的 全 部 ,在 一 定 意义 上 讲 , 这 与 抽象 又 存在 一 定 的 矛盾 。 因 为 ,为 了 形式 化 所 
进行 的 抽象 有 时 需要 售 弃 大 量 的 信息 ,而 这 将 导致 经 过 形式 化 处 理 后 的 系统 难以 表达 出 物理 系 
统 的 完整 产 稻 。 更 严重 的 是 ,有 时 还 会 使 其 失去 物理 系统 的 本 来 面 煞 。 在 现实 世界 中 ,这 种 问题 
有 许多 。 实 际 上 .在 某 些 情况 下 如 果 我 们 勉强 对 它们 进行 形式 化 处 理 . 一 方面 会 导致 面目全非 ， 
另 一 方面 可 能 会 因为 过 于 复杂 等 问题 ,使 得 系统 难以 具有 良好 的 结构 。 我 们 称 比 类 问题 是 难以 
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式 化 的 。 这 是 物理 符号 系统 所 面临 的 困难 。 
由 此 也 可 以 看 出 ,物理 符号 系统 对 全 局 性 判断 ,模糊 信息 处 理 ,多 粒度 的 视觉 信息 处 理 等 是 
常 困难 的 ,这 就 导致 了 人 们 去 榨 求 对 此 类 问题 的 新 的 处 理 方法 。 


-13 联接 主义 观点 


为 了 研究 智能 ,在 现代 神经 科学 的 研究 成 果 的 基础 上 ,大 们 提出 了 另 … 种 观点 ,认为 : 
智能 的 本 质 是 联接 机 制 。 神 经 网 络 是 一 个 由 大 量 简 单 的 处 理 单元 组 成 的 高 度 复杂 的 火 规模 
. 非 线性 自 适 应 系统 。 
虽然 按 此 说 法 来 刻 划 神经 网 络 ,未 能 将 其 所 有 的 特性 完全 描述 出 来 ,但 它 却 从 以 下 四 个 方面 
出 发 ,力图 最 大 限度 地 体现 人 脑 的 一 些 基本 特征 , 问 时 使 得 所 得 人 工 神经 网 络 具 有 良好 的 可 实现 
作 。 人 工 神经 岗 络 就 是 力求 从 这 四 个 方面 去 模拟 人 脑 的 智能 行为 。 

1. 物理 结构 

现代 神经 科学 的 研究 结果 认为 ,大 脑 皮层 是 一 个 广泛 联接 的 巨型 复杂 系统 , 亡 包 含有 大 约 一 
千 亿 个 神经 元 ,这些 神经 元 通过 一 于 万 亿 个 联接 构成 一 个 大 规模 的 神经 网 络 系统 。 人 工 神 经 网 
络 也 将 是 由 与 生物 神经 元 类 似 的 人 工 神经 元 通过 广泛 的 联接 构成 的 。 人 工 神经 元 将 模拟 生物 神 
经 元 的 功能 。 它 们 不 仅 具 有 一 定 的 局 部 处 理 能 力 , 同 时 还 可 以 接受 来 自 系统 中 其 他 神经 元 的 信 
号 ,并 可 以 将 自己 的 “状态 "按照 一 定 的 形式 和 方式 传送 给 其 他 的 神经 元 。 

2. 计算 模拟 

人 脑 中 的 神经 元 , 既 有 局 部 的 计算 和 存储 功能 ,又 通过 联接 构成 一 个 统一 的 系统 。 人 脑 的 计 
算 就 是 建立 在 这 个 系统 的 大 规模 并 行 模拟 处 理 的 基础 上 的 。 各 个 神经 元 可 以 接受 系统 中 其 他 昼 
经 元 通过 联接 传送 过 来 的 信号 ,通过 局 部 的 处 理 ,产生 一 个 结果 ,再 通过 联接 将 此 结果 发 送出 去 。 
神经 元 接受 和 传送 的 信号 被 认为 是 模拟 信和 号。 所 有 这 些 , 对 大 脑 中 的 各 个 神经 元 来 说 ,都 是 同时 
进行 的 。 因 此 ,该 系统 是 一 个 大 规模 并 行 模拟 处 理 系 统 。 由 于 人 工 神 经 网 络 中 存在 大 量 的 有 局 
部 处 理 能 力 的 人 工 神经 元 ,所 以 ,该 系统 也 将 实现 信息 的 大 规模 并 行 处 理 , 以 提高 其 性 能 。 

3. 存储 与 操作 

研究 认为 ,大 脑 对 信息 的 记忆 是 通过 改变 突 触 (Synapse) 的 联接 强度 来 实现 的 。 神 经 元 之 间 
的 联接 强度 确定 了 它们 之 问 传 递 的 信号 的 强 各 ,而 联接 强度 则 由 相应 的 突 触 决定 。 也 就 是 说 , 除 
神经 元 的 状态 所 表现 出 的 信息 外 ,其 他 信息 被 以 神经 元 之 间 联 接 强 度 的 形式 分 布 存放 。 存 储 区 
与 操作 区 会 二 为 一 。 这 里 的 处 理 是 按 大 规模 .连续 ,模拟 方式 进行 的 。 由 于 其 信息 是 由 神经 元 的 
状态 和 神经 元 之 问 实现 联接 的 突击 的 强 弱 所 表达 的 ,所 以 说 信息 的 分 布 存放 是 它 的 另 一 个 特点 。 
这 是 人 工 神经 网 络 模拟 实现 生物 神经 系统 的 第 三 大 特点 。 

信息 的 大 规模 分 布 存放 给 信息 的 充分 并 行 处 理 提供 了 良好 的 基础 。 同 时 ,这 些 特性 又 使 系 
统 具 有 了 较 强 的 容错 能 力 和 联想 能 力 , 也 给 概括 ,类比 .推广 提供 了 强 有 力 的 支持 。 

4. 训练 

生活 实践 的 经 验 告诉 我 们 ,人 的 大 脑 的 功能 除了 受到 先天 因素 的 限制 外 ,还 被 后 天 的 训练 所 
确定 。 先 大 因素 和 后 天 因素 中 ,后 夫 的 调 练 更 为 重要 。 一 个 人 的 学 习 经 历 .工作 经 廊 都 是 他 的 宝 
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贵 财富 。 这 些 发 明 , 人 脑 具有 很 强 的 自 组 织 和 自 适应 性 ， 回 我 们 看 到 的 表象 不 同 , 从 生理 的 角度 
来 讲 , 人 的 许多 智力 活动 并 不 是 按时 轿 方式 进行 的 ,而 大 道 过 训练 形成 的 所以, 人工 神 经 网 络 
将 根据 自己 的 缚 构 特性 ,使 用 不 辐 的 训练 ` 学 习 过 程 ,日 动 从 "实践 "中 获取 相关 的 知识 ,并 将 其 存 
放 在 系统 内 。 这 里 的 “实践 "就 是 训练 样本 。 

实际 上 ,虽然 人 类 对 神经 网 络 的 研究 起 源 很 早 ,然而 真正 广泛 地 将 其 用 作 人 工 智能 的 一 项 新 
的 技术 来 研究 只 是 近 几 十 年 的 事 ， 这 种 努力 在 20 世纪 60 年 代 受 到 手 折 后 ,停顿 了 近 20 年 。 后 
来 ,人 们 发 现 传统 的 人 工 智 能 技术 要 在 近期 取得 大 的 突破 还 较为 困难 ,同时 加 上 人 们 在 生物 神经 
网 络 和 人 工 神经 网 络 方面 赋 究 的 进展 ,重新 唤起 了 人 们 对 用人 小 神经 网 络 来 实现 人 工 智 能 的 兴 
趣 。 希 望 通过 共同 的 努力 ,尽快 构造 出 一 个 较为 理想 的 人 工 智 能 系统 。 

为 此 ,许多 方面 的 科学 家 分 别 从 各 自 的 学 科 入 手 . 交 叉 联 合 , 进 行 研究 。 所 以 说 ,人 工 神 经 网 
络 理 论 是 许多 学 科 共 同 努 力 的 结果 。 这 些 学 科 主 要 包括 神经 科学 ,生物 学 .计算 机 科学 与 技术 ， 
生理 学 ,数学 .工程 ,心理 学 ,哲学 ,语言 学 等。 


1.1.4 两 种 楼 型 的 比较 
物理 符号 系统 利 人 工 神 经 网 络 系统 从 不 同 的 方面 对 人 阮 进 行 模拟 。 其 卷 别 见 表 1- 1。 

















表 1-1 物理 符号 系统 和 人 工 神经 网 络 系统 的 差别 




















项 上 物理 符号 系统 | 人 工 神经 网络 
处 理 方式 这 加 运 和 模拟 运 入 
拆 行 方式 品行 并 行 
动人 离散 连 统 

存 信 局 各 梨 中 全 局 分 布 





可 以 说 ,物理 符号 系统 是 从 人 的 心理 学 的 特性 出 发 ,去 模拟 人 类 问题 求解 的 心理 过 程 。 所 以 
它 擅 长 于 模拟 人 的 逻辑 思维 ,可 以 将 它 看 作 是 思维 的 高 级 形式 。 而 在 许多 系统 中 ,一 些 形 象 思 维 
的 处 理 需要 用 逻辑 思维 来 实现 ,这 就 导致 了 该 系统 对 图 像 处 理 类 问题 的 处 理 效率 不 高 。 

作为 联接 主义 观点 的 人 工 神经 网 络 , 它 是 从 仿生 学 的 观点 出 发 ,从 生理 模拟 的 角度 去 研究 人 
的 思维 与 智能 , 抛 长 于 对 人 的 形象 思维 的 模拟 ,这 古人 类 思维 的 低级 形式 。 从 目前 的 研究 结果 
看 ,因为 这 种 系统 的 非 精 确 性 的 特点 ,使 得 它 对 以 运 辑 思维 为 主 进行 求解 的 问题 的 处 理 较 为 二 
准 。 图 1- 2 给 出 了 两 种 系统 与 人 类 思维 形式 的 对 应 比较 。 

这 两 种 观点 导致 了 疯 种 不 同 的 人 工 智能 技术 :基于 物理 符号 系统 的 传统 的 人 工 智能 技术 和 
基于 联接 主义 观点 的 人 工 神经 网 络 技术 。 这 两 种 技术 的 比较 见 表 工 - 2。 从 表 中 可 以 看 出 ,这 两 
种 技术 导致 处 理 问 题 方 法 的 不 同 ,使 得 相应 系统 的 开发 方法 和 间 应 的 对 象 有 着 很 大 的 差别 。 按 
照 这 一 分 析 , 传 统 的 人 工 智能 方法 和 人 工 神经 网 络 的 方法 并 不 是 完全 可 以 互相 取代 的 ,它们 应 该 
有 着 不 同 的 应 用 面 。 





心理 过 程 一 -一 -一 >> 进 将 局 维 王 -一 - 一 > 高 级 形式 (思维 的 表象 ) 


生理 过 程 上 - 一 一 -一人 > 形象 层 维 C 一 一 ->> 低级 形式 ( 甩 维 的 根木 } 


仿生 < 一 一 一 人 人 工 神经 网 络 


图 1-2 两 种 模型 的 模拟 对 归 
表 1-:2 两 种 人工 知 能 技术 的 比较 





基于 物理 符号 系统 的 传 














义 观点 “神经 
项 目 | 统 的 人 工 智能 技术 基于 腾 接 主义 观点 的 人 工 神经 网 络 技术 
| 术 | 
| 并 行 处 理 ;对 样本 数据 进行 多 日 标 学 习 ; 表 过 人 工 神 
来 现 ? 行 处 理 实现 | 
基本 实现 方式 | 审 生 由 程序 实现 挫 抽 经 元 之 间 的 相互 作用 实现 控制 
| 设计 规则 、 框 架 、 程 序 ; 用 样本 数 | 定义 人 工 神经 阅 络 的 结构 原型 ,通过 样本 数据 ,依据 
基本 开发 方法 | 据 进 行 调 试 ( 由 人 根据 已 知 的 环 | 基本 的 学 习 算 臣 完成 学 习 一 一 自动 从 样本 数据 中 抽 
境 去 构造 一 个 模型 拓 内 涵 ( 衣 动 适 应 应 用 环境 
适应 领域 “| 精确 计算 ,符号 处 理 . 歼 值 计算 “| 非 精 确 计 算 ,模拟 处 再. 感 所 大 规模 数据 并 行 处 理 
模拟 对 象 左 脑 ( 逮 辑 思维 ) 右 脑 (形象 思维 ) 











信息 的 分 布 才 示 ,运算 的 全 局 并 行 和 局 部 操作 ,处 理 的 非 线性 是 人 工 神经 网 络 的 三 大 特点 。 


1.2 人 工 神经 网 络 的 特点 


其 构造 和 处 理 均 是 围绕 此 三 点 进行 的 。 
1L.2.1 人 工种 经 网 结 的 概念 


1 定义 


人 工 神经 网 络 是 人 脑 及 其 活动 的 一 个 理论 化 的 数学 模型 , 它 由 大 晤 的 处 理 单 无 通过 适当 的 
方式 互 连 构成 ,是 一 个 大 规模 的 非 线性 自 适 应 系统 。1988 年 , Hecht 一 Nielsen 曾经 给 人 工 神 经 网 


络 下 了 如 下 的 定义 : 


人 工 神 经 网 络 是 一 个 并 行 ,分 布 处 理 结构 , 它 由 处 理 单元 及 称 为 联接 的 无 向 信号 通道 互 连 而 


成 。 这 些 处 理 单元 (PE 一 一 Processing Elementj 有 具有 局 部 内 存 , 并 可 以 完成 局 部 操作 。 丝 个 处 理 


单元 有 一 个 单一 的 输出 联接 ,这 个 输出 可 以 根据 需要 被 分 支 成 希望 个 数 的 许多 并 行 联接 , 且 这 些 
并 行 联接 都 输出 相同 的 信号 , 即 相应 处 理 单元 的 信号 ,信号 的 大 小 不 因 分 支 的 多 少 而 变化 。 处 理 
单元 的 输出 信号 可 以 是 任何 需要 的 数学 模型 ,每 个 处 理 单元 中 进行 的 操作 必须 是 完全 局 部 的 。 
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也 就 是 说 , 它 必 须 仅 仅 依赖 于 经 过 输入 联接 到 达 处 理 单元 的 所 有 输入 信和 号 的 当前 值 和 存储 在 处 
理 单 元 电 部 内 存 中 的 值 。 

该 定义 主要 强调 了 四 个 方面 的 内 容 : 并 行 \ 分 布 处 理 结构 ;一 个 处 理 单 元 的 输出 可 以 被 任意 
分 支 , 且 大 小 不 变 ; 输 出 信和 叶 可 以 是 任意 的 数学 模型 ;处 理 单 元 完全 的 局 部 操作 。 这 里 说 的 处 理 
单元 就 是 人 工 神经 元 (AN- 一 -Artificial Neuron) 。 

按照 Rumellhart .MeClelland ,Hinton 等 人 提出 的 PDE(Parallel Distributed Processing } 理 论 框 
架 ( 简 称 为 PDR 模型 ) ,人工 神 经 网 络 由 八 个 方面 的 要 素 组 成 

(1) 一 组 处 理 单元 (PE 或 4N); 

《2) 处 理 单元 的 激活 状态 (ai); 

《3) 每 个 处 理 单元 的 输出 函数 (万 ) 

(4) 处 理 单元 之 间 的 联接 模式 ; 

《5) 传递 规则 ( > esO)) 

(6) 把 处 理 单元 的 输入 及 当前 状态 结合 起 来 产生 激活 值 的 激活 规则 (已 ); 

《7) 通过 经 验收 改 联接 强度 的 学 习 规则 ; 

(8) 系统 运行 的 环境 (样本 集合 )。 

可 以 将 PDP 模型 表示 成 儿 1- 3 的 形式 。 


Ri= 开 世 包 二 所 ne1 oo 
| 产 -一 >| | [一 > 
L 


图 1 3 PDP 模 型 下 的 人 工 神经 元 网 络 模 型 























以 上 这 两 种 定义 都 比较 详细 复杂。 为 了 使 用 方便 ,1987 年 ,Simpson 从 人 工 神经 网 络 的 拓 
扑 结构 出 发 ,给 出 了 一 个 虽然 不 太 严 格 但 却 是 简明 扼要 的 定义 。 它 对 一 般 的 应 用 来 说 ,是 足以 说 
明 问 题 的 : 

人 工 神 经 网 络 是 一 个 非 线性 的 有 向 图 ,图 中 含有 可 以 通过 改变 权 大 小 来 存放 模式 的 加 权 边 ， 
并 且 可 以 从 不 完整 的 或 未 知 的 输入 找到 模式 。 

人 工 神经 网 络 除了 可 以 叫做 并 行 分 布 处 理 系 统 (PDP) 外 ,还 可 以 时 做 人 工 神经 系统 (ANS)、 
神经 网 络 (NN)、 自 适应 系统 (Adaptive Systems)、 自 适应 网 (Adaptive Networks)、 联 接 模 型 
(Connectionism) 神经 计算 机 (Neurocomputer) 等 。 

人 工 神经 网 络 不 仅 在 形式 上 模拟 了 生物 神经 系统 , 它 也 确实 具有 大 脑 的 一 些 基本 特征 ， 

《1) 神经 元 及 其 联接 

共 系 统 构成 的 形式 上 看 ,由 于 人 工 神经 网 络 是 受 生物 神经 系统 的 启发 构成 的 ,从 神经 元 本 身 


.8 


到 联接 模式 ,基本 上 者 旦 以 与 生物 神经 系统 相似 的 方式 工作 的 。 这 里 的 人 工 神经 元 (AN ) 与 生物 
神经 元 (BN) 相 对 应 ,可 以 改变 强度 的 联接 则 与 突 触 相 对 应 。 

(2) 信息 的 存储 与 处 理 

从 表现 特征 上 来 看 ,人 上 神经 网 络 也 力求 模拟 生物 神经 系统 的 某 本 运行 方式 。 例 如 ,可 以 通 
过 相应 的 学 习 / 训 练 算法 ,将 酝 含 在 一 个 较 大 数据 集中 的 数据 联系 抽象 出 来 。 就 像 人 们 可 以 不 断 
地 摸索 规律 .总结 经 验 ~- 样 ,可 以 从 先前 得 到 的 例子 按 要 求 产生 出 新 的 实例 ,在 一 定 程度 上 实现 
“举一反三 "的 幼 能 。 


.2.2 学 习 能 力 


人 工 神 经 网 络 可 以 根据 所 在 的 环境 去 改变 它 的 行为 。 也 就 是 说 ,人 工 神 经 网 络 可 以 接受 用 
尹 提 交 的 样本 集合 ,依照 系统 给 定 的 算法 ,不 断 地 修正 用 来 确定 系统 行为 的 神经 元 之 间 联 接 的 强 
度 , 独 及 在 网 络 的 基本 构成 确定 之 后 ,这 种 改变 是 根据 其 接受 的 样本 集合 自然 地 进行 的 。 一 般 来 
说 ,用 户 不 需 次 再 根据 所 遇 到 的 样本 集合 去 对 网 络 的 学 习 算法 做 相应 的 调整 。 也 就 是 说 ,人 工 神 
经 网 络 具 有 熏 好 的 学 习 功能 。 由 于 在 传统 的 人 工 智 能 系统 的 研究 中 ,虽然 人 们 对 "机 器 学 习 " 问 
题 给 予 了 足够 的 重视 并 借 注 了 极 大 的 努力 ,但 是 ,系统 的 自学 习 能 力 差 依然 是 阻 得 其 获得 广泛 应 
用 的 最 大 障碍 。 而 人 工 神经 网 络 具有 良好 的 学 习 功 能 的 这 一 性 能 ,使 得 人 们 对 它 产生 了 极 大 的 
兴趣 。 人 工 神经 网 络 的 这 一 特性 称 为 "自然 具有 的 学 习 功 能 ”, 以 与 传统 的 人 工 智能 系统 总 要 花 
较 大 的 力气 去 研究 系统 的 学 习 问题 形成 对 照 。 

在 学 习 过 程 中 ,人 工 神经 网 络 不 断 地 从 所 接受 的 样本 集合 中 提取 该 集合 所 莉 含 的 基本 东西 ， 
并 将 其 以 神经 元 之 问 的 联接 权重 的 形式 存放 于 系统 中 。 例 如 ,可 以 构造 一 个 举 相 联 的 网 络 , 它 在 
接受 样本 集合 4 时 ,可 以 抽取 集合 4 中 输入 数据 与 输出 数据 之 间 的 映射 关 条 。 如 果 样 本 集合 
灾 成 了 吾 , 它 同 样 可 以 抽取 集合 吾 中 输入 数据 与 输出 数据 之 间 的 映射 关系 。 再 例如 ,对 于 某 一 
模式 ,可 以 用 它 的 含有 不 同 噪声 的 数据 去 训练 一 个 网 络 , 在 这 些 数 据 选 择 得 比较 恰当 的 前 提 下 ， 
可 以 使 得 网 络 今 后 在 过 到 类 似 的 含有 一 定 扒 陷 的 数据 时 ,仍然 能 够 得 到 它 对 应 的 完整 的 模式 。 
也 可 以 说 ,这 表明 ,人 工 神经 网 络 可 以 学 会 按 要 求 产生 它 从 未 通 到 过 的 模式 。 有 时 候 ,又 将 人 工 
神经 网 络 的 这 一 功能 叫做 “抽象 "功能 。 

目前 ,对 应 不 同 的 人 工 神经 网 络 模型 ,有 不 同 的 学 习 / 训练 算法 ,有 时 , 同 种 结构 的 网 络 拥有 
不 同 的 算法 ,以 适应 不 同 的 应 用 要 求 。 对 一 个 网 络 模型 来 说 ,其 学 习 / 训练 算法 是 非常 重要 的 。 
例如 ,作为 一 般 的 多 级 网 络 学 习 / 训练 算法 的 BP 算法 ,虽然 已 被 发 现 并 应 用 多 年 ,今天 仍然 有 许 
多 人 在 研究 如 何 提高 它 的 训练 速度 和 性 能 。 


1.2.3 普 化 能 力 


由 于 其 运算 的 不 精确 性 ,人 工 神经 网 络 在 被 训练 后 ,对 输 人 的 微小 变化 是 不 反应 的 。 与 事物 

的 其 耐 性 相对 应 ,虽然 在 要 求 高 精度 计算 时 ,这 种 不 精确 性 是 一 个 缺陷 ,但 是 ,有 些 场合 又 可 以 利 

用 这 一 点 获取 系统 的 良好 竹 能 。 例 如 ,可 以 使 这 种 不 精确 性 表现 成 “去 噪音 , 容 残 缺 ” 的 能 力 , 侧 

这 对 模式 识别 有 时 恰好 是 非常 重要 的 。 还 可 以 利用 这 种 不 精确 性 ,比较 自然 地 实现 模式 的 站 动 
.9 








分 类 。 
尤其 值得 注意 的 巧 ,人 工 神 经 网 络 的 这 种 特性 不 基 通 过 隐 含 在 专门 设计 的 计算 机 程序 中 的 
人 类 的 智能 来 实现 的 ,而 是 其 自身 的 结构 所 国有 的 特性 所 给 定 的 。 


1.2.4 信息 的 分 存放 


信息 的 分 布 存放 给 人 工 神经 网 络 提供 了 另 一 种 特殊 的 功能 。 由 于 一 个 信息 被 分 布 存 放 在 几 
乎 整个 网 络 中 ,所 以 , 当 其 中 的 某 -个 点 或 者 某 几 个 点 被 破坏 遇 ,信息 仍然 可 以 被 在 取 。 这 能 够 
保证 系统 在 受到 一 定 的 损伤 时 述 可 以 正常 工作 。 但 是 ,这 并 不 是 说 ,可 以 任意 地 对 完成 学 习 的 网 
络 进行 修改 。 也 正 是 由 于 信息 的 分 布 存放 ,对 一 类 网 来 说 , 当 它 完成 学 习 后 ,如 果 再 让 它 学 习 新 
的 东西 ,这 时 就 会 破坏 原来 已 学 会 的 东西 ,BP 网 就 是 这 类 网 。 有 关 具 体 分 析 见 相关 章节 。 


1.2.5 运用 性 问题 


从 .1.4 节 可 以 看 出 ,人 工 神经 网 络 并 不 是 可 以 解决 所 有 问题 的 , 它 应 该 有 自己 的 适用 面 。 
人 脑 貌 能 进行 “形象 思维 "又 能 进行 “ 怕 辑 思维” ,传统 的 人 工 智 能 技术 模拟 的 是 逐 辑 思维 ,人 工 神 
经 网 络 模拟 的 是 形象 思维 ,而 这 两 着 适用 的 方面 是 不 同 的 ,所 以 ,人 工 神经 网 络 擅长 于 适用 形象 
思维 的 问题 的 处 理 。 主 要 包括 两 个 方面 ， 

(17 对 大 量 的 数据 进行 分 类 , 并且 只 有 较 少 的 几 种 情况 ; 

(2) 必须 学 习 一 个 复杂 的 非 线性 映射 。 

这 两 个 方面 对 传统 的 人 工 智 能 技术 来 说 都 是 比较 困难 的 。 目 前 ,人 们 主要 将 其 用 于 语音 、 
觉 . 知 襄 处 理 、 辅 助 决策 等 方面 。 此 外 ,在 数据 压缩 、 模 武 匹配 、 系 统 建 模 模糊 控制 . 求 组 合 优化 
问题 的 最 佳 解 的 近似 解 (不 是 最 佳 近似 解 ) 等 方面 也 有 较 好 的 应 用 。 





1.3 历史 回顾 


大 工 神经 网 络 的 发 展 是 曲折 的 ,从 萌芽 期 到 目前 ,几经 兴 训 。 可 以 将 其 发 展 历史 大 体 上 分 成 
如 下 一 个 时 期 。 


1.3,1 萌 菠 其 


人 工 神经 网 络 的 研究 最 早 可 以 追 潮 到 人 类 开始 研究 自己 的 智能 的 时 期 ,这 一 时 期 截止 到 
1949 年 ， 
开始 时 ,人 类 对 自身 的 思维 感到 非常 奇妙 ,从 而 也 就 有 了 许 许多 多 关于 思维 的 推测 ,这 些 推 
测 既 有 解剖 学 方面 的 ,也 有 精神 方面 的 。 一 直到 了 神经 解剖 学 家 和 神经 生理 学 家 提出 人 脑 的 “ 通 
信 联 接 * 机 制 , 我 们 才 对 人 脑 有 了 一 点 了 解 。 到 了 20 世纪 40 年 代 初期 ,对 神经 元 的 功能 及 其 功 
能 模式 的 研究 结果 才 足 以 使 研究 人 员 通 过 建立 起 一 个 数学 模型 来 检验 他 们 提出 的 各 种 犹 想 。 在 
这 个 期 间 ,产生 了 两 个 重大 成 果 , 它 们 构成 了 人 工 神经 网 络 萌芽 期 的 标志 。 
1943 年 ,心理 学 家 McCulloch 和 数学 家 Pitts 建立 起 了 著名 的 冰 值 加 权 和 模型 ,简称 为 M- 了 
,10 


模型 。1943 年 ,MeCulloch 和 Pitts 总结 了 生物 神经 元 的 一 些 基本 生理 特征 ,对 其 一 阶 特性 进行 
形式 化 描述 ,提出 了 一 种 简单 的 数学 模型 与 构造 方法 ,这 一 结果 发 表 在 数学 生物 物理 学 会 乔 
《Bulletin ef Methematical Biophysicsy$ 上 。 这 为 人 们 用 元 器 件 ,用 计算 机 程序 实现 人 工 神经 网 络 打 
下 了 坚实 的 基础 。 

1949 人生, 心理 学 家 D,O,Hebb 提出 神经 元 之 手 突 触 联系 是 可 变 的 假说 。 他 认为 ,人 类 的 学 
习 过 程 是 发 生 在 突 触 上 的 ,而 突 触 的 联接 强度 则 与 昼 经 元 的 活动 有 关 。 据 此 ,他 给 出 了 人 工 神经 
网 络 的 学 习 律 一 一 联接 两 个 神经 元 的 突 触 的 强度 按 如 下 规则 变化 :在 任意 时 刻 , 当 这 两 个 神经 元 
处 于 同 .种 状态 时 ,表明 这 次 个 神经 元 具有 对 问题 响应 的 一 致 性 ,所 以 ,它们 应 该 豆 相 支持 ,其 间 
的 信和 号 传输 应 该 加 强 ,这 是 通过 加 强 它们 之 间 的 突 触 的 联 楼 强度 实现 的 。 反 之 ,在 某 一 时 刻 , 当 
这 两 个 神经 元 处 于 不 同 的 状态 时 ,表明 它们 对 问题 的 响应 是 不 一 致 的 ,因此 它们 之 间 的 突 触 的 联 
接 强度 被 减弱 。 称 之 为 Hebb 学 习 律 。Hebb 学 习 律 在 人 工 神经 网 络 的 发 展 史 中 占 有 重要 的 地 
位 ,被 认为 是 人 工 神经 网 络 学 习 训练 算法 的 起 点 .是 里 程 碑 。 


1.3,2 第 一 高潮 其 


第 一 高 潮 期 大 体 上 可 以 认为 是 从 1950 年 到 1968 年 ,也 就 是 从 单 级 感知 器 (Perceptron) 的 构 
造成 功 开始 ,到 单 级 感知 器 被 无 情 地 答 定 为 止 。 这 是 人 工 神经 网 络 的 研究 被 广 为 重 视 的 一 个 时 
期 。 其 重要 成 果 是 单 级 感知 器 及 其 电子 线路 模拟 。 

在 20 谁 纪 50 年 代 和 60 年 代 , 一 些 研究 者 把 生理 学 和 心理 学 的 观点 结合 起 来 ,研究 成 功 了 
单 级 感知 器 ,并 用 电子 线路 去 实现 它 。 电 子 计算 机 出 现 后 ,人 们 才 转 到 用 更 方便 的 电子 计算 机 程 
序 去 模拟 它 。 由 于 用 程序 进行 模拟 既 便于 修改 又 便于 测试 ,而 且 更 重要 的 是 ,这 种 方法 的 费用 特 
别 低 。 所 以 ,直到 今天 ,大 批 的 甚至 是 大 多 教 的 研究 人 员 仍 然 在 用 这 种 模拟 的 方法 进行 研究 。 本 
书 在 后 面 的 叙述 中 ,也 将 对 人 工 神经 网 络 的 程序 模拟 方法 进行 适当 的 讨论 。 

这 个 期 间 的 研究 以 Marvin Minsky \Frank Rosenblatt ,Bernard Widrow 等 为 代表 人 人物, 代表 作 
是 单 级 感知 器 。 它 被 人 们 用 于 各 种 门 题 的 求解 ,甚至 在 一 段 时 间 里 , 它 使 人 们 乐观 地 认为 几乎 已 
经 找到 了 智能 的 关键 。 

早期 的 成 功 ,给 人 们 带 来 了 极 大 的 兴奋 。 不 少 人 认为 ,只要 其 他 的 技术 条 件 成 熟 , 就 可 以 重 
构 人 脑 , 因 为 重 梅 人 脑 的 问题 已 转换 成 建立 一 个 足够 大 的 网 络 的 问题 。 包 括 美国 政府 在 内 的 许 
多 部 门 都 开始 大 批 地 投 人 此 项 研究 ,希望 尽快 占领 制高点 。 


1.3.3 反思 期 


正在 人 们 兴奋 不 已 的 时 候 ,M. L. Minsky 和 S，Papert 对 单 级 感知 器 进行 了 深入 的 研究 ,从 
理论 上 诈 明 了 当时 的 单 级 感知 器 无 法 解决 许多 简单 的 问题 。 在 这 些 问 题 中 ,甚至 包括 最 基本 的 
“ 蜡 或 "问题 。 这 一 成 果 在 《Pereeptron?~- 书 中 发 表 , 该 书 由 MIT 出 版 社 在 1969 年 出 版 发 行 。 以 
该 书 的 出 版 为 标志 ,人 们 对 人 工 神经 网 络 的 研究 进入 了 反思 期 。 

由 于 " 异 或 "运算 是 计算 机 中 的 最 基本 运算 之 一 ,所 以 ,这 一 结果 是 邻 人 震惊 的 。 由 于 
Minsky 的 卓越 、 严 诬 和 威望 ,使 得 不 少 人 对 此 结果 深信 不 疑 。 从 而 导致 了 许多 研究 人 员 放 弃 了 
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对 这 一 领域 的 研究 ,政府 .企业 也 前 减 了 要 应 的 投资 。 

虽然 如 此 ,还 二 有 一 些 具有 献身 精神 的 科学 家 在 坚持 进行 相应 的 研究 。 在 20 世纪 70 年 代 
和 80 年 代 早 期 ,他 们 的 研究 结果 很 难得 到 发 表 , 而 且 是 散布 于 各 种 杂志 之 中 ,使 得 不 少 有 意义 的 
成 果 即 使 在 发 表 之 后 ,也 难以 被 同行 看 到 ,这 导致 了 反思 期 的 延长 。 著 名 的 BP 算法 的 研究 就 是 
一 个 例子 。 

在 这 一 段 的 反思 中 ,人 们 发 现 ,有 一 类 问题 是 单 级 感知 器 无 法 解决 的 ,这 类 问题 是 线性 不 可 
分 的 。 要 想 罕 破 线性 不 可 分 问题 ,必须 采用 功能 更 强 的 多 级 网 络 。 逐 浙 地 ,一 系列 的 基本 网 络 模 
型 被 建立 起 来 ,形成 了 人 工 神经 网 络 的 理论 基础 。Minsky 的 估计 被 证 明 是 过 分 莫 观 的 。 

可 以 认为 ,这 一 时 期 一 真 延 续 到 1982 年 了 ,Hopfield 将 Lyapunov 琢 数 引入 人 大工 神经 网 络 , 作 
为 网 络 性 能 判定 的 能 量 函 教 为 止 。 在 这 个 期 间 , 取 得 的 主要 积极 成 果 有 Arbib 的 毫 争 模型 . 
Kohonen 的 自 组 织 喘 射 ,Gizossberg 的 自 适应 共振 模型 (ART) .Fukushima 的 新 认 知 机 .Rumellhart 
等 人 的 并 行 分 布 处 理 模型 (PDP) . 

1.3.4 第 二 高 湖 期 


人 工 神经 网 络 研 究 的 第 二 次 高 潮 到 来 的 标志 是 美国 加 州 理工 学 院 生物 物理 学 家 J. Hopfield 
的 两 简 重 要 论文 分 别 于 1982 年 和 1984 年 在 美国 科学 院 院 刊 上 发 表 。 总 结 起 来 ,这 个 期 间 的 代 
表 作 有 : 

(1) 1982 年 ,J. Hopfield 提出 循环 网 络 ,并 将 Lyapunov 机 数 引入 人 工 神经 阿 络 , 作 为 网 络 性 
能 判定 的 能 量 函 数 , 盖 明了 人 工 神经 网 络 与 动力 学 的 关系 ,用 非 线性 动力 学 的 方法 来 研究 人 工 神 
经 网 络 的 特性 ,建立 了 人 工 神经 网 络 稳定 性 的 判别 依据 ,指出 信息 被 存放 在 网 络 中 神经 元 的 联接 
上 ， 实际 上 ,这 里 所 指 的 信息 是 长 期 存储 的 信息 (Long Term Memory)。 这 是 一 个 突破 性 的 进 
展 - 

(2) 1984 年 ,J， Hopfield 设计 妍 制 了 后 来 被 人 们 称 为 Hopfield 网 的 电路 。 在 这 里 ,人 工 神经 
元 被 用 放大 器 来 实现 ,而 联接 则 是 用 其 他 电子 线路 实现 的 。 作 为 该 研究 的 一 项 应 用 验证 , 它 较 好 
地 解决 了 著名 的 TSP 问题 ,找到 了 最 佳 解 的 近似 解 , 引 起 了 较 大 的 未 动 。 

(3) 1985 年 ,美国 加 州 大 学 圣地 亚 可 分校 (UCSD) 的 Hinton .Sejnowsky、Rumelhart 等 人 所 在 
的 并 行 分 布 处 理 (PDP) 小 组 的 研究 者 在 Hopfield 网 络 中 习 人 了 随机 机 制 ,提出 所 谓 的 Boltzmann 
机 。 企 这 里 ,他 们 借助 于 统计 物理 学 的 方法 ,首次 提出 了 多 层 网 的 学 习 算法 。 但 由 于 它 的 不 确定 
性 ,其 收敛 速度 成 了 较 大 的 问题 ,日 前 主要 用 来 使 网 络 逃离 训练 中 的 局 部 极 小 点 。 

(4) 1986 年 ,并 行 分 布 处 理 小 组 的 Rumelhart 等 研究 者 重新 独立 地 提出 狠 层 网 络 的 学 习 算 
法 一 一 BP 算法 , 较 好 地 解决 了 多 层 网 络 的 学 习 问题 。 我 们 之 所 以 这 样 讲 ,是 因为 后 来 人 们 依次 
发 现 ,类 似 的 算法 分 别 被 Paker 和 Werbos 在 1982 年 和 1974 年 独立 地 提出 过 ,只 不 过 当时 没 能 
被 更 多 的 人 发 现 并 受到 应 有 的 重视 。BP 算法 的 提出 ,对 人 工 神经 网 络 的 研究 与 应 用 起 到 了 重大 
的 推动 作用 。 

这 个 期 间 , 人 们 对 神经 网 络 的 全 究 达到 了 第 二 次 高 潮 , 仅 从 1987 年 6 月 在 美国 加 州 举行 的 
第 一 届 神 经 网 络 国际 会 议 就 有 1 000 余 名 学 者 参加 就 可 以 看 到 这 一 点 。 我 国 在 这 方面 的 研究 要 
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澡 后 一 点 ,国内 首届 神经 网 络 大 会 是 1990 第 12 月 在 北京 学 行 的 。 
1.3.$ 再 认识 与 应 用 研究 期 


实际 上 , 步 和 20 世纪 9 年 代 后 ,人 们 发 现 , 关 于 人 工 神经 网 络 述 有 许多 待 解决 的 问题 .其 中 
包括 许多 理论 问题 。 所 以 ,近期 要 想 用 人 工 昼 经 网 络 的 方法 在 人 工 智能 的 研究 中 取 待 突破 性 的 
进展 还 为 时 过 早 。 因 此 又 开始 了 新 一 轮 的 再 认识 。 

与 此 同时 ,许多 研究 者 致力 于 根据 实际 系统 的 需要 ,改进 现 有 的 模型 和 基本 算法 .以 获取 较 
好 的 性 能 。 

以 物理 符号 系统 为 基础 的 传统 的 人 工 智能 技术 ,模拟 的 是 人 的 胃 辑 思维 过 程 ,人 工 神经 网 络 
则 是 对 人 的 形象 思维 的 模拟 。 按 照 这 一 说 法 ,这 两 种 不 同 的 人 工 智能 技术 应 该 大 体 上 拥有 同样 
宽 的 应 用 面 。 但 是 ,就 目前 看 来 ,人 工 神经 网 络 的 应 用 还 远 不 能 和 传统 的 计算 并 驾 齐 驱 , 它 还 在 
等 待 着 基础 研究 的 重大 突破 。 

人 工 神经 网 络 的 不 精确 扒 理 ,使 得 它 因为 结果 的 精度 较 低 岳 远近 不 能 满足 出 户 的 需要 。 这 
在 一 定 的 程度 上 也 影响 了 它 的 应 用 面 。 为 了 解决 这 个 问题 ,充分 发 挥 两 种 技术 各 自 的 优势 ,一 部 
分 研究 者 在 系统 中 将 其 作为 初步 的 “筛选 工具 ”, 取 得 结果 后 ,再 用 传统 的 方法 进行 求 精 。 太 量 的 
实验 表明 ,这 种 方法 是 一 个 有 效 的 方法 。 

另外 ,目前 还 无 法 对 人 工 神经 网 络 的 工作 机 理 进 行 严 格 的 解释 ,这 使 得 它 的 可 信和 度 成 为 - -个 
不 大 不 小 的 问题 。 目 前 ,大 多 数 的 研究 主要 集中 在 以 下 三 个 方面 ， 

(1) 开发 现 有 模型 的 应 用 ,并 在 应 用 中 根据 实际 运行 情况 对 模型 .算法 加 以 改造 ,以 提高 网 
络 的 刘 练 速度 和 运行 的 准确 度 。 

《2) 希望 在 理论 上 寻找 新 的 突破 ,建立 新 的 专用 /通用 模型 和 算法 。 

(3) 进一步 对 生物 神经 系统 进行 研究 ,不断 地 主 富 对 人 脑 的 认识 。 





练 习 题 


叙述 人 类 智能 的 含义 。 
什么 是 人 工 智 能 ? 研究 人 工 智能 的 目的 是 什么 ? 
表示 智能 的 物理 符号 节 统 的 特征 是 什么 ? 抽象 和 形式 化 在 传统 的 人 工 智能 技术 中 是 如 何 发 挥 作 二 的? 
信 工 神经 网 络 从 己 几 个 关键 方面 试图 去 模拟 人 的 智能 ? 
物理 符号 系统 和 联接 主义 的 观点 在 琛 讨 对 人 的 智能 的 理解 和 表达 上 的 根本 区 别 是 什么 ? 
试用 图 1 - 2 对 传统 的 人 工 智能 技术 和 人 工 神经 网 络 方法 进行 比较 。 通 过 此 比较 ,你 能 认为 人 工 神经 网 
绪 方 法 将 会 比 传统 的 人 工 智能 技术 有 更 为 广 搁 的 发 展 前 景 么 ? 为 什么 ? 

7. 在 人 工 神经 网 络 的 概念 中 ,有 几 点 是 最 为 关键 的 ,它们 示 达 出 了 人 工 神经 网 络 最 本 质 的 特征 ,你 认为 是 
忆 几 点 ? 

8. 请 总 结 出 人 工 独 经 网 络 的 性 能 特点 

.如 合理 解 估 工 神经 网 络 的 学 习 能 力 . 普 化 能 力 ? 

10. 通过 了 解 人 工 神经 网 络 发 展 的 历史 ,你 对 一 些 基础 研究 工作 有 什么 看 法 :是 非常 重要 的 工作 ,但 它们 仅 
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仅 是 理论 工作 者 的 责任 ? 仅仅 是 少数 致力 于 创新 发 明 、 发 现 的 人 的 工作 ? 每 个 从 事 科学 研究 的 人 都 应 该 给 巴 
一 定 的 重视 ? 

11. M,，L,， Minsky 和 S. Papert 从 理论 上 证 明了 当时 的 单 级 感知 器 无 法 解决 包括 * 异 或 "运算 在 内 的 许多 简 
单 问 题 , 从 而 沉重 吕 打 击 了 人 们 对 人 工 境 经 网 络 研究 的 积极 性 ， 你 认为 这 一 成 果 的 取得 和 《Perceptron} 一 书 的 发 
琢 对 人 工 神经 网 络 研究 的 发 展 起 到 了 什么 样 的 历史 作用 ? 请 给 出 你 自己 的 评价 。 

12， 人 脑 是 由 许多 神经 元 并 通过 它们 之 间 的 广泛 联接 构成 的 。 按 照 图 1- 2 所 指出 的 人 工 神经 网 络 模拟 思 
维 的 生理 过 程 的 观点 , 清 你 考虑 一 下 ,人 工 神经 网 络 应 该 是 如 何 构成 的 ? 
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第 二 章 ” 人 工 神经 网 络 基础 


人 工 神 经 网 络 是 根据 人 们 对 生物 神经 网 络 的 研究 成 果 设 计 出 来 的 , 它 由 一 系列 的 神经 元 及 
相应 的 联接 构成 ,具有 良好 的 数学 描述 ,不 仅 可 以 用 适当 的 电子 线路 来 实现 ,更 可 以 方便 地 用 
计算 机 程序 加 以 模拟 。 本 章 将 介绍 人 工 神经 网 络 的 基本 知识 ,主要 包括 :基本 的 生物 神经 网 络 模 
型 ,人 下 神经 元 模型 及 其 典 考 的 激活 函数 ;人 工 神经 网 络 的 基本 折 扑 特性 ,存储 类 型 (CAM - 
LTM,AM- STM) 及 映 象 ,有 导师 (Supervised) 训 练 与 无 导师 (Unsupervised) 训 练 等 基本 概念 。 

















2.1 “生物 神经 网 络 





由 于 人 工 神经 网 络 是 受 生 物 神经 网 络 的 启发 构造 南 成 的 ,所 以 在 开始 讨论 人 工 神 经 网 络 之 
前 ,有 必要 首先 考虑 人 脑 皮层 神经 系统 的 组 成 。 

科学 研究 发 现 ,人 的 大 脑 中 大 约 含有 104 个 生物 神经 元 ,它们 通过 105 个 联接 被 联 成 一 个 系 
统 。 每 个 神经 元 具有 独 训 的 接受 ,处理 和 传递 电化 学 (Electrochemical) 信 号 的 能 力 。 这 种 传递 经 
由 构成 大脑 通信 系统 的 神经 通路 所 完成 。 图 2 - 1 所 示 是 生物 神 经 元 及 其 相 屯 联 接 的 典型 结构 。 
为 清楚 起 见 ,在 这 里 只 画 出 了 两 个 神经 元 ,其 他 神经 元 及 其 相互 之 间 的 联接 与 此 类 似 。 














宽 舰 (Synapse} 





图 2-1 典型 的 生物 神经 元 





如 图 所 泉 , 枝 莫 (Dendrite) 从 胞 体 (Soma 或 Cell body) 伸 向 其 他 神经 元 ,这 些 神经 元 在 被 称 为 
突 触 (Synapse) 的 联接 点 接受 信号 。 在 突 触 的 接受 侧 , 信 号 被 送 入 胞 体 ,这 些 信号 在 胞 体 里 被 综 
合 。 其 中 有 的 输入 信号 起 刺激 (Excite) 作 用 ,有 的 起 抑制 作用 (Inhibit)。 当 胞 体 中 接受 的 累加 和 刺 
激 超过 一 个 阔 值 时 , 胞 体 就 被 激发 ,此 时 它 沿 轴 突 通过 枝 蔓 向 其 他 神经 元 发 出 信和 号。 

在 这 个 系统 中 ,每 一 个 神经 元 都 通过 突 触 与 系统 中 很 多 其 他 的 神经 元 相 联 系 。 研 究 认为 , 同 
一 个 神经 元 道 过 由 其 伸 出 的 枝 蔓 发 出 的 信 呈 是 相同 的 ,而 这 个 信号 可 能 对 接受 它 的 不 同 神经 元 
有 不 同 的 效果 ,这 一 效果 主要 由 柯 庶 的 罕 触 决定 :突击 的 “联接 强度 " 越 大 ,接受 的 信 身 就 越 强 , 反 
之 , 窒 甬 的 "联接 强度 " 越 小 ,接受 的 信和 导 就 越 弱 。 突 般 的 "联接 强度 "下 以 随 着 系统 受到 的 训练 而 
被 改变 。 

总 结 起 来 ,生物 神经 系统 有 旭 下 个 基本 特征 : 

(1) 神经 元 及 其 联接 ; 

(2) 神经 元 之 各 的 联接 强度 决定 信号 传递 的 强 弱 ; 

(3) 神 丝 元 之 问 的 联接 强度 是 可 以 随 训 练 而 改变 的 ; 

(4) 信号 可 以 是 起 刺激 作用 的 ,也 可 以 是 起 抑制 作用 的 ; 

(5) 一 个 神经 元 接受 的 信号 的 累积 效果 决定 该 神经 元 的 状态 ; 

《6)》 每 个 神经 元 可 以 有 一 个 " 阔 值 "。 
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2.2 ”人工 神经 元 


从 上 述 可 知 ,神经 元 是 构成 神经 网 络 的 最 基本 单元 (构件 )。 因 此 ,要 想 构造 一 个 人 工 和 神经 网 
络 系统 ,首要 任务 是 构造 人 工 神经 元 模型 。 而 且 我 们 希望 ,这 个 模型 不 仅 是 简单 容易 实现 的 数学 
模型 ,而 目 它 还 应 该 共有 上 土 节 介 绍 的 生物 神经 元 的 六 个 基本 特性 。 


2.2.1_ 人 工种 经 元 的 基本 柏 成 


根据 上 述 对 生物 神经 元 的 讨论 我们 希望 人 工 神经 元 可 浴 模拟 生物 神经 元 的 一 阶 特性 一 - 
输入 信号 的 加 权 和 。 
对 于 等 一 个 人 工 神经 元 来 说 , 它 可 以 接受 一 组 来 自 系 统 中 其 他 神经 元 的 输 人 信号 ,每 个 输入 
对 应 一 个 权 , 所 有 输入 的 加 权 和 决定 该 神经 元 的 激活 {Activation) 状 态 。 这 里 ,每 个 权 就 相当 于 
突 触 的 “联接 强度 "。 基 本 模型 见 图 2 - 2。 
设 半 个 输入 分 别 用 zj,za…yzw 表示 ,它们 对 应 的 联接 权 值 依次 为 wi xzoa，…，,aw ,所 有 的 
输入 及 对 应 的 联接 权 值 分 别 构 成 输入 向 量 下 和 联接 权 向 量 钱 : 
是 二 (zly7Z2 no) 
下 = (relay 
用 net 表示 该 神经 元 所 获得 的 输入 信 号 的 累积 效果 ,为 简便 起 匈 , 称 之 为 该 神经 元 的 网 络 输 
人 人 : 





PE 了 














图 2-2 不 带 激活 函数 的 人 工 神经 元 


et 一 > ra 2 一 1 


与 成 向 量 形 式 , 则 有 
net = 天 几 2-2 


2.2.2 激活 阴 数 (Activation Function) 


神经 元 在 获得 网 络 输入 后 , 它 应 该 给 出 适当 的 和 输出。 按照 生物 神经 元 的 特性 ,每 个 神经 苑 有 
一 个 阐 值 , 当 该 神经 元 所 获得 的 输入 信号 的 累积 效果 超过 阔 值 时 , 它 就 处 于 激发 态 ; 可 则 .应 该 处 
于 抑制 态 。 为 了 使 系统 有 更 宽 的 适用 面 ,希望 人 工 神 经 元 有 -~ 个 更 一 般 的 变换 函数 ,用 来 执行 对 
该 挤 经 元 所 获得 的 网 络 输入 的 变换 ,这 就 是 激活 函数 ,也 可 以 称 之 为 激励 机 数 ,活化 函数 骨 了 
表 丰 : 





= 厂 met) 2-3 
其 中 ,o 是 该 神经 元 的 输出 。 由 此 式 可 以 看 出 ,的 数 太 同 时 也 用 来 将 神经 亢 的 输出 进行 放大 处 理 
或 女 制 在 一 个 适当 的 范围 内 。 典 型 的 激活 函数 有 线性 函数 、 非 线性 群 而 函 教 、 阶 妈 函 数 ,* 型 函 
数 等 四 种 。 
1. 线性 函数 (Linear Function) 
线性 函数 是 最 基本 的 激活 函数 , 它 起 到 对 神经 元 所 获得 的 网 络 输入 进行 适当 的 线性 放大 的 
作用 。 它 的 一 般 形 式 为 
Onet) = 天 Xnet Te 2-4 
式 中 心 为 放大 系数 ,c 为 位 移 , 它 们 均 为 常数 。 图 2 -3(a) 所 示 是 它 的 图 像 。 
2. 非 线性 斜面 函数 (Ramp Function) 
线性 函数 非常 简单 ,但 是 它 的 线性 性 极 大 地 降低 了 网 络 的 性 能 , 它 甚至 使 多 级 网 络 的 功能 退 
化 成 单 级 网 络 的 功能 。 因 此 ,在 人 工 神经 网 络 中 有 必要 引 人 非 线性 激活 珊 数 。 
非 线性 斜面 函数 是 最 简单 的 非 线性 函数 ,实际 上 它 是 一 种 分 段 线性 函数 。 由 于 它 简单 ,所 以 
有 时 也 被 人 们 采用 。 这 种 函数 在 于 把 函数 的 值 域 限 制 在 一 个 给 定 的 范围 [ - y,y] 内 。 
7 计 ner 之 日 
六 et) = 六 met 这 netl< 8 2-5 
一 了 计 mnef 委 - 0 
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图 2-3 4 种 常用 的 激活 函 雪 


其 中 ,7 为 常数 。 一 般 地 ,规定 7 >0, 它 被 称 为 他 和 值 ,为 该 神经 元 的 最 大 输出 。 图 2- 3(b} 所 示 
是 它 的 图 像 。 

3. 益 值 函数 (Threshold Function) 

阅 值 函数 又 叫 阶 肥 函 数 , 当 激活 函数 仅 用 来 实现 判定 神经 元 所 获得 的 网 络 输 人 是 否 超过 阔 
值 9 时 ,使 用 此 打数 。 


18 这 rel > 有 


Fnet) = | 2-6 


一 Y iner 扫 人 

其 中 ,8、y、9 均 为 非 负 实数 ,8 为 阔 值 。 图 2 - 3(c) 所 示 是 它 的 图 像 。 通 常 ,人 们 用 式 2- 6 的 二 
值 形 式 ; 

1 这 nel > 8 


| 
AD |0 ioess 2 
有 时 候 , 还 将 式 2-7 中 的 0 改 为 -1, 此 时 就 变 成 了 双 极 形式 : 
1 iaet > 8 ， 
Am | 2 这 net 袜 和 2 


4. 5 形 函 数 
5 形 函 数 又 吗 压 缩 函 数 (Squashing Funetion) 和 尿 辑 斯 特 数 (Logistie Function) ,其 应 用 最 
为 广泛 。 它 的 一 般 形式 为 


人 et) 二 41 人 EC 


其 中 ,.、e 为 常数 。 图 2-3(d) 所 示 是 它 的 图 像 。 图 中 
.18 


二 


F = e+ 
它 的 物 和 值 为 ec 和 a + 如 。 该 函数 的 最 简单 形式 为 
Faet) = -1 


Tecp( xm 
此 时 ,函数 的 饱和 值 为 0 和 1。 
也 可 以 取 其 他 形式 的 函数 ,如 双 曲 函数 、 扩 充 平 方 本 数 。 而 当 取 护 充 平 方 函数 











人 ae - 
FUaet) = YL+ me if mer 六 0 
0 其 他 
时 ,和 侈 条 值 仍 然 是 0 和 !。 当 歌 双 曲 衣 数 
FUner) = tanh(nel) = 2 
em 十 


时 , 伯 和 值 则 是-~1 和 1。 

5 形 函 煞 之 所 以 被 广泛 地 应 用 ,除了 它 的 非 线性 性 和 处 处 连续 可 导 性 外 ,更 重要 的 是 由 于 该 
函数 对 信号 有 一 个 较 好 的 增益 榨 制 :函数 的 值 域 可 以 出 用 户 根据 实际 需要 给 定 ,在 | nef 1 的 值 比 
较 小 时 ,7 zer) 有 一 个 较 大 的 增益 ;在 | re | 的 值 比较 大 时 ,AP( zaer ) 有 一 个 较 小 的 增益 ,这 为 防止 
阅 络 进入 饱和 状态 提供 了 良好 的 支持 。 


2.2.3_M- 了 模型 


将 人 工 神经 元 的 基本 模型 和 激活 函数 合 在 一 起 构成 人 工 神经 元 ,这 就 是 著名 的 MeCulloch - 
Pirls 模型 ,简称 为 M- 了 模 列 , 也 可 以 称 之 为 处 理 单元 (PE)。 
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图 2 一 4 人 工 神经 元 
在 上 一 章 曾 经 提 到 过 ,UCSD 的 PDP 小 组 曾经 将 人 工 神经 元 定义 得 比较 复杂 ,在 本 书 中 ,为 


方便 起 见 , 均 采用 这 种 简化 了 的 定义 ,同时 简 记 为 AN。 图 2 -4 所 给 出 的 神经 元 在 今后 给 出 的 图 
中 均 用 一 个 结 点 表示 。 


2.3 ”人工 神 经 网 络 的 拓扑 特性 


为 了 理解 方便 ,用 结 点 代表 神经 元 ,用 加 权 有 向 边 代表 从 神经 元 到 神经 元 之 问 的 有 向 联接 ， 
.19 ， 


相应 的 权 代 表 该 联接 的 联接 强度 ,用 箭头 代表 信号 的 传递 方向 。 
2.3.L_ 联 可 模式 


在 生物 神经 系统 中 ,一 个 神经 元 接受 的 信号 可 以 对 其 起 刺激 作用 ,也 可 能 对 其 起 抑制 作用 。 
在 人 工 神 经 网 络 系统 中 ,注意 到 神经 元 是 以 加 权 和 的 形式 接受 其 他 的 神经 元 给 它 的 信号 的 ,所 以 
无 需 特 意 去 区 分 它们 ,只 用 通过 赋予 联接 权 的 正 . 负 呈 就 可 以 了 : 

， 用 正 号 (" + ”, 可 省 略 ) 表 示 传 送 来 的 信号 起 刺激 作用 ,用 于 增加 神经 元 的 活跃 度 ; 

， 用 负 叶 (“ “) 表 示 传 送 来 的 信和 号 起 抑制 作用 ,用 于 降低 神经 元 的 活跃 度 。 

那么 ,如 何 组 织 网 络 中 的 神经 元 呢 ? 研究 发 现 ,物体 在 人 脑 中 的 反映 带 有 分 块 的 特征 ,对 一 
个 物 休 , 存 在 相应 的 明暗 区 域 。 这 一 点 启发 我 们 可 以 将 这 些 神经 元 分 成 不 同 的 组 ,也 就 是 分 块 
进行 组 织 。 在 拓扑 表示 中 ,不同 的 块 可 以 被 放 人 不 同 的 康 中 。 另 一 方面 ,网 络 总 该 有 输入 和 输 
出 ,从 而 就 有 了 输入 层 和 输出 层 。 

层次 (又 称 为 “级 ") 的 划分 ,导致 了 神经 元 之 间 三 种 不 同 的 互联 模式 : 层 (级 ) 内 联接 ,循环 联 
接 . 层 (级 ) 间 联接 。 

1, 层 内 联接 

层 内 联接 又 叫做 区 域内 (Intra - field) 联 接 或 侧 联 接 (Lareral) 。 它 是 本 层 内 的 神经 元 到 本 层 
内 的 神经 元 之 间 的 联接 ,可 用 来 加 强 和 完成 层 内 神经 元 之 间 的 竞争 ; 当 需 要 组 内 加强 时 ,这 种 联 
接 的 联接 权 取 正 值 ;在 需要 实现 组 内 壹 争 时 ,这 种 联接 权 取 负 值 。 

2. 循环 联接 

循环 联接 在 这 里 特 指 神经 元 到 自身 的 联接 ,用 于 不 断 加 强 自身 的 激活 值 ,使 本 次 的 输出 与 上 
次 的 输出 相关 ,是 一 种 特殊 的 反馈 信和 叶 。 

3. 晨 间 联接 

层 间 (lnter~ field) 联 接 指 不 同 层 中 的 神经 元 之 间 的 联接 。 这 种 联接 用 来 实现 层 间 的 信和 号 传递 。 

在 复杂 的 网 络 中 , 层 间 的 信号 传递 既 可 以 是 向 前 的 { 前 司 信 号 ), 又 可 以 是 向 所 的 (反馈 信 
导 )。 一 般 地 ,前 馈 信 号 只 被 允许 在 网 络 中 向 一 个 方向 传送 ;反馈 信号 的 传送 则 可 以 自由 一 些 , 它 
甚至 被 允许 在 网 络 中 循环 传送 。 

在 反馈 方式 中 ,一 个 输 人 信号 通过 网 络 变换 后 ,产生 一 个 输出 ,然后 该 输出 又 被 反馈 刘 输 人 
端 ,对 应 于 这 个 “新 的 "输入 ,网络 又 产生 一 个 新 的 输出 ,这 个 输出 又 被 再 次 反馈 到 输 人 端 …… 如 
此 重复 下 去 。 我 们 希望 , 随 着 这 种 循环 的 进行 ,在 某 一 时 刻 , 输 人 和 输出 不 再 发 生变 化 一 一 网 络 
稳定 了 下 来 ,那么 ,网 络 此 时 的 输出 将 是 网 络 能 够 给 出 的 .最初 的 输 人 所 应 对 应 的 最 为 理想 的 输 
出 。 在 这 个 过 程 中 ,信号 被 一 遍 一 遍地 修复 和 加 强 ,最 给 得 到 适当 的 结果 。 但 是 ,最 初 的 输 人 是 
一 个 可 以 “修复 "的 对 象 么 ? 如 果 是 ,系统 是 否 真 的 有 能 力 修复 它 呢 ? 这 种 循环 是 否 会 永远 地 进 
行 下 去 ?这 就 是 循环 网 络 的 稳定 性 问题 。 


2.3.2 网 络 的 分 时 结构 


为 了 更 好 地 组 织 网 络 中 的 神经 元 ,我 们 把 它们 分 布 到 各 层 (级 )。 按 照 上 面 对 网 络 的 联 拉 的 
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划分 ,我 们 称 侧 联接 引起 的 信 叶 传递 为 横向 反馈 ; 层 问 的 向 前 联接 引起 的 信号 传递 为 层 前 司 ( 简 
称 前 饶 ); 层 疝 的 向 后 联接 引起 的 信号 传递 为 层 反馈 : 横向 反馈 和 层 反馈 统 称 为 反馈 。 
1 单 级 网 
虽然 单个 神经 元 能 够 完成 简单 的 模式 侦 测 , 但 是 为 了 完成 较 复 杂 的 功能 ,还 需要 将 大 量 的 神 
经 元 联 成 网 ,有 机 的 联接 使 它们 可 以 协同 完成 规定 的 任务 
(] ) 简单 单 级 网 
最 简单 的 人 工 坤 经 网 络 如 图 2 - 5 所 示 ,该 网 接受 输入 向 量 : 
发 = (ra ) 
经 过 变换 后 输出 向 量 Y， 
= (ooayo0n) 
网 2-5 表面 上 看 是 一 个 两 层 网 ,但 是 由 于 其 中 的 输入 层 的 神经 元 不 对 输入 信和 叶 做 任何 处 理 , 它 
们 只 起 到 对 输入 向 量 X 的 户 出 作用 。 因 此 ,在 计算 网 络 的 导数 时 人 们 习惯 上 并 不 将 它 作 为 一 
层 - 
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图 2-S$ 简单 单 级 网 


屋 输 人 层 的 第 守 个 神经 元 到 输出 层 的 第 ; 个 神经 元 的 联接 的 强度 为 ww, 即 互 的 第 f 个 分 量 
以 权重 wz 输入 到 输出 层 的 第 7 个 神经 元 中 , 取 所 有 的 权 梅 成 (输入 ) 权 答 阵 厂 : 


本 = (ua) 
输出 层 的 第 j 个 神经 元 的 网 络 答 人 记 为 neb: 
0 一 1 十 
其 中 ,1 过 j 入 关 。 取 
ET = (mietlyneta yneta) 

从 而 有 

NET = XW 2 一 9 

人 = FONET) 2 一 二 


式 中 了 为 输出 层 神经 元 的 激活 函数 的 向 量 形式 。 我 们 约定 ,F 对 应 每 个 神经 元 有 一 个 分 量 , 而 
且 它 的 第 7 个 分 量 对 应 作用 在 NET 的 第 j 个 分 量 neb 上 。 一 般 情况 下 ,不 对 其 各 个 分 重 加 以 区 
分 ,认为 它们 是 相同 的 。 对 此 ,今后 不 再 说 明 。 
根据 信息 在 网 络 中 的 流向 , 称 多 是 从 输入 苦 到 输出 层 的 联接 权 和 矩阵, 而 这 种 只 有 一 级 联接 
.2 








矩阵 的 网 络 叫做 简单 单 级 网 。 为 方便 起 见 , 有 时 将 网 络 中 的 联接 权 和 您 阵 与 其 到 法 方 相关 联 。 例 
如 ,上 述 的 多 就 可 以 被 称 为 输出 层 权 和 矩阵。 
(2) 单 级 横向 反馈 网 
在 简单 单 级 网 的 基础 上 ,在 其 输出 层 加 上 侧 联 接 就 构成 单 级 横向 反馈 网 。 如 图 2 一 6 所 下 。 
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图 2-6 单 级 横向 反馈 网 


设 输出 层 的 第 ;个 神经 元 到 输出 层 的 第 ;7 个 神经 元 的 联接 的 强度 为 ww , 即 D 的 第 ; 个 分 量 
以 权重 zy 输入 到 输出 层 的 第 7 个 神经 元 中 。 取 所 有 的 权 构 成 侧 联接 权 矩 降 Y， 


Y = (zh) 
则 
NET = 习 1 + OY 2~- 负 
DO= 了 (NET) 2-12 


在 此 网 络 中 ,对 一 个 输入 ,如 果 网 络 最 终 能 给 出 一 个 不 变 的 输出 ,也 就 是 说 , 网 络 的 运行 逐渐 
会 达到 稳定 , 则 称 该 网 络 是 稳定 的 ;否则 称 之 为 不 稳定 的 。 网 络 的 稳定 性 问题 是 碍 扰 有 反馈 信号 
的 网 络 的 性 能 的 重要 问题 。 因 此 ,稳定 性 判定 是 一 个 非常 重要 的 问题 。 
出 于 信号 的 反锁, 使 得 网 络 的 输出 随时 间 的 变化 丽 不 断 变化 ,所 以 时 间 参 数 肥 时候 也 是 在 研 
究 网 络 运行 中 需要 特别 给 予 关注 的 一 个 重要 参数 。 下 面 假定 ,在 网 络 的 运行 过 程 中 有 一 个 主 时 
钟 ,网 络 中 的 神经 元 的 状态 在 主 时 钟 的 控制 下 同步 变化 。 在 这 种 假定 下 ,有 
NET(E+1) = 于 ( 站 时 二 DCT 2-13 
OU+1 = (ONETCE+1)) 2- 14 
其 中 , 当 : = 0 时 0(0) =0。 
读者 自己 可 以 考虑 不 仅 在 ; = 0 时 加 在 网 上 的 情况 。 
2,， 多 级 网 
研究 表明 , 单 级 网 的 功能 是 有 限 的 ,适当 地 增加 网 络 的 层 数 是 提高 网 络 计算 能 力 的 一 个 途 
径 , 这 也 部 分 地 模拟 了 人 脑 的 某 些 部 位 的 分 级 结构 特征 。 
从 拓扑 结构 上 来 看 ,多 级 网 是 由 多 个 单 级 网 联接 而 成 的 。 
(1) 层次 划分 
图 2- 7 所 示 是 一 个 典型 的 多 级 前 镇 网 ,又 叫做 非 循 环 多 级 网 络 。 在 这 种 网 络 中 ,信号 只 被 
人 允许 从 较 低 层 流向 较 高 层 。 我 们 约定 ,用 层 号 确定 层 的 高 低 ; 层 号 较 小 者 ,层次 较 低 ; 层 呈 较 大 
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者 ,层次 较 高 。 备 层 的 层 号 按 如 下 方式 递归 定义 : 

*。 输入 层 :与 单 级 网 络 一 样 ,该 层 只 起 到 输 人 信和 号 的 扇 出 作用 。 所 以 在 计算 网 络 的 导数 时 
不 被 记 和 人 。 该 层 负 责 接收 来 自 网 络 外 部 的 信息 ,被 记 作 第 0 层 。 

。 第) 层 : 第 ) -上 层 的 直接 后 继 层 () >0) , 它 直接 接受 第 ) - 1 层 的 输出 。 

， 输出 岩 : 它 是 网 络 的 最 后 一 层 , 具 有 该 网 络 的 最 大 层 号 ,负责 输出 网 络 的 计算 结果 。 

， 隐藏 层 : 除 输 人 层 和 输出 层 以 外 的 其 他 各 层 叫 隐藏 层 。 隐 藏 层 不 直接 接受 外 界 的 信和 号， 
也 不 直接 向 外 春 发 送信 号 。 















































图 2-7 多 级 前 馈 网 


此 外 ,我 们 约定 ， 

全 输出 层 的 层 号 为 该 网 络 的 层 数 ,并 称 一 个 输出 层 号 为 n 的 网 络 为 层 网 络 或 级 网 络 。 

@@ 第 ) -1!1 层 到 第 ) 层 的 联接 笔 阵 为 第 ) 层 联接 抵 阵 ,输出 层 对 应 的 矩阵 叫 输出 层 联 接 矩 
阵 。 今 后 ,在 需要 的 时 候 , 一 般 用 研 人 表示 第 ) 层 矩 阵 。 

(2) 非 线性 激活 函数 

前 面 曾经 提 到 过 , 非 线性 激活 画 数 在 多 级 网 络 中 起 着 非常 重要 的 作用 。 实 际 上 , 它 除了 能 够 
根据 需要 对 网 络 中 各 神经 元 的 输出 进行 变换 外 ,还 使 得 多 级 网 络 的 功能 超过 单 级 网 络 ,为 解决 人 
工 神经 网 络 所 面临 的 线性 不 可 分 问题 提供 了 基础 。 

增加 网 络 的 层 数 在 于 提高 网 络 的 计算 能 力 。 但 是 ,如 果 使 用 线性 激活 函数 , 则 多 级 网 的 功能 
不 会 超过 单 级 网 的 功能 。 事 实 上 , 设 有 一 * 层 网 络 ,下 是 其 输入 向 量 , 友人、 研 们 、…、 研 ( 习 是 各 
级 联接 矩阵 ,NETI NET 、NET, 分 别 是 各 级 的 网 络 输入 向 量 , Fi 、F2、… 了 为 各 级 神经 元 
的 激活 函数 , 现 假定 它们 均 是 线性 的 : 

甩 (NET ) = 天 NET + 4 1 委 所 二 2-15 

中 ,天 、4; 是 常数 向 量 , 且 这 里 的 天 NET 有 特殊 的 意义 , 它 表示 五 与 NET', 的 分 旦 对 应 相 
乘 ,结果 仍然 是 同 维 向 量 。 


令 














天; 一 【 环 1 到 2 
NET = (〔netlyreta，yanetai) 
则 
天 ;NET = 【有 Wet) 因 2 11efz 天 ae》 2 一 16 
网 络 的 输出 向 量 为 


。23 ， 


人 D= 只 (PiCE2CPICNET)))  ) 
= 也 (人 (Fa 下 + 0) 
= 拘 ( 了 (下 其 逢 钱 和 十 让 二 二 全 二 和) 
= 下 (了 3( 天 3 天 在 秤 由 丽人 二 天 到 2 4 
= 可 (天 ( 想 下 | 居 研修 本 2 + 2 9 +A) 1) 
= 下 ( (天 3 天 3 天 自卫 们 研 们 印 全 二 下 4 且 人 + 下 4 十 人 十 4) ) 
= 天 .居于 2 下 四 五 儿 低 全 开 生 
二 下， 下 3 下 3 且 全 邦人 晤 本 全 
二 


十 下 

下 1 

十 册 ， 

= 故人 + 和 
其 中 
下 = 政 ， .其 ;下 2 下) 
本 = 醇 由 丽 名 钱 全 二 ( 虽 
册 = 天， 天 :下 | 帮 于 全 钱 @ ， 荆 () 
十 下 了 且 全 琴 () 


二 下 且 (7) 
十 首 ， 
上 述 式 子 中 ,向 量 瓦 ; 之 问 的 运算 遵循 式 2 ~ 16 的 约定 。 
从 上 述 推导 可 见 , 这 个 多 级 网 相当 于 一 个 激活 函数 为 F(NET) = KNET + 4 = 天 X 二 
和 ,联接 矩阵 为 砍 的 简单 单 级 网 络 。 显 然 ,如 果 网 络 使 用 的 是 非 线性 激活 函数 , 则 不 会 出 现 上 述 
问题 。 因此 说 , 非 线性 激活 函数 是 泌 级 网 络 的 功能 超过 单 级 网 络 的 保证 。 
3. 循环 网 ， 
如 果 将 输出 信号 反馈 到 输入 端 ,就 可 构成 一 个 多 层 的 循环 网 络 , 如 图 2 - 8 所 示 。 其 中 的 反 
镇 联接 还 可 以 是 其 他 的 形式 。 
.24 ， 
























































图 2-8 多 级 循环 网 


实际 上 ,引入 反馈 的 主要 目的 是 解决 非 循环 网 络 对 上 一 次 的 输出 无 记忆 的 问题 。 在 非 循环 
网 络 中 , 箱 出 仅仅 由 当前 的 输 人 和 权 和 矩阵 决定 ,而 和 较 前 的 计算 无 关 。 在 循环 网 中 , 它 需要 将 输 
出 送 回 到 输入 端 ,从 而 使 当前 的 输出 受到 上 次 输出 的 影响 ,进而 又 受到 前 一 个 输入 的 影响 ,如 此 
形成 一 个 迭代 。 也 就 是 说 ,在 这 个 选 代 过 程 中 ,输入 的 原始 信号 被 送 步 地 "加 强 ” 被 修复"。 

这 种 性 能 ,在 一 定 的 程度 上 反映 了 人 的 大 脑 的 效 期 记忆 特征 一 一 看 到 的 东西 不 是 一 下 子 就 
从 脑海 里 消失 的 。 

当然 ,前 面 曾经 提 到 过 ,这 种 反馈 信 号 会 引起 网 络 输出 的 不 断 变化 。 如 果 这 种 变化 逐渐 减 
小 ,并 且 最 后 能 消失 ,一般 来 说 ,这 种 变化 就 是 我 们 所 希望 的 变化 。 当 变化 最 后 消失 时 ,我们 称 网 
络 达 到 了 平衡 状态 。 如 果 这 种 变化 不 能 消失 , 则 称 该 网 络 是 不 稳定 的 。 


2.4 存储 与 映射 


人 工 神 经 网 络 是 用 来 处 理 信息 的 。 可 以 认为 ,所 有 的 信息 都 是 以 模式 的 形式 出 现 的 ;输入 向 
量 是 模式 ,输出 向 基 是 模式 , 朵 层 的 神经 元 在 某 一 时 刻 的 状态 是 模式 ,所 有 的 神经 元 在 某 一 时 刻 
的 状态 是 模式 ,网 络 中 任意 层 的 权 矩 阵 , 权 系 降 所 含 的 向 量 都 是 模式 。 在 循环 网 络 中 ,所 有 的 神 
经 元 的 状态 沿 时 间 轴 展开 ,这 就 形成 一 个 模式 系列 。 所 以 说 ,在 人 工 神经 网 络 中 ,有 两 种 类 型 的 
模式 ;空间 模式 (Sparial ModeD) 和 时 空 模式 (Spatiaitemporail Model)。 网 络 所 有 的 神经 元 在 某 一 
时 刻 的 状态 所 确定 的 网 络 在 该 时 刻 的 状态 叫做 空间 模式 ;以 时 间 维 为 轴 展 开 的 空间 模式 系列 叫 
做 时 空 模式 ,这 两 种 模式 之 间 的 关系 如 间 一 个 画面 与 整个 影片 的 关系 。 仅 在 考虑 循环 网 络 的 稳 
定性 和 网 络 训练 的 收 伍 过 程 时 涉及 到 时 空 模式 ,一 般 情 况 下 ,只 研究 空间 模式 。 

在 日 常生 活 中 , 当 寻 找 一 单位 时 , 需 蔓 知 痢 它 的 地 址 ,然后 根据 地 址 去 访问 它 ; 在 计算 机 系统 
中 ,目前 习 民 的 也 是 通过 地 址 去 存放 和 歌 出 数据 。 实 际 上 ,在 人 工 神经 网 络 技术 中 ,空间 模式 的 
存 取 送 有 另外 两 种 方式 。 所 以 ,按照 信息 的 存放 与 提取 的 方式 的 不 同 ,空间 模式 共有 三 种 存储 类 
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型 。 
1. RAM 方式 
RAM 方式 即 随机 访问 方式 (Random Access Memory)。 这 种 方式 就 是 现 有 的 计算 机 中 的 数 
据 访问 方式 。 这 种 方式 需要 按 地 址 去 存 取 数 据 , 即 将 地 址 映射 到 数据 。 

2. CAM 方 式 

CAM 方式 即 内 容 寻 扯 方式 (Content Addrossable Memoryy。 在 这 种 方式 下 ,数据 自动 地 找到 
它 的 存放 位 置 ， 换 句 话说 ,就 是 将 数据 变换 成 它 应 存放 的 位 置 ,并 执行 相应 的 存储 。 例 如 ,在 后 
面 介绍 的 人 工 神经 网 络 的 训练 算法 中 ,样本 数据 被 输入 后 , 它 的 内 容 被 自动 存储 起 来 ,虽然 现在 
还 不 知道 它们 具体 是 如 何 被 存放 的 。 这 种 方式 是 将 数据 映射 到 地 址 。 

3. AM 方式 

AM 方式 即 相 联 存储 方式 (Associative Memory)。 这 种 方式 是 数据 到 数据 的 直接 转换 。 在 人 
工 神经 网 络 的 正常 工作 阶段 ,输入 模式 (向 量 ) 经 过 网 络 的 处 理 ,被 转换 成 输出 模式 (向 量 ) 。 这 种 
方式 是 将 数据 映射 到 数据 。 

上 后面 的 两 种 方式 是 人 工 神 经 网 络 的 工作 方式 。 在 学 习 / 训 练 期 间 ,人 工 神经 网 络 以 CAM 方 
式 工 作 : 它 将 样本 数据 以 各 层 神 经 元 之 间 的 连接 权 和 矩阵 的 稳定 状态 存放 起 来 。 由 于 权 抢 阵 在 大 
多 数 网 络 的 正常 运行 阶段 是 一 直 被 保存 不 变 的 ,所 以 权 矩 阵 又 被 称 为 网 络 的 长 期 存储 (Long 
Term Memory , 简 记 为 LTM) 。 

网 络 在 正常 工作 阶段 是 以 AM 方式 工作 的 。 此 时 ,输入 模式 被 转换 成 输出 模式 。 由 于 输出 
模式 是 以 网 络 输出 必 的 神经 元 的 状态 表示 出 来 的 ,而 在 下 一 个 时 刻 , 或 者 在 下 一 个 新 的 输入 向 量 
加 到 网 络 上 的 时 候 , 这 一 状态 将 被 改变 ,所 以 , 称 由 神经 元 的 状态 表示 的 模式 为 短期 存储 (Short 
Term Memory, 简 记 为 STM) 。 

输入 向 量 与 输出 向 量 的 对 应 关系 是 网 络 的 设计 者 所 关心 的 另 一 个 问题 。 和 模式 完善 相对 
应 ,人 工 神 经 网 络 可 以 实现 还 原型 映射 。 如 果 此 时 训练 网 络 的 样本 集 为 向 量 集合 : 

4 4 2- 17 
在 理想 情况 下 ,该 网 络 在 完成 训练 后 ,其 权 矩 阵 存放 的 将 是 上 式 所 给 的 向 量 集合 。 此 时 网 络 实现 
的 映射 将 是 自 相 联 (Auto - associative) 映 射 。 

人 工 神经 网 络 还 可 以 实现 变换 型 和 分 类 型 映射 。 如 果 此 时 训练 网 络 的 样本 集 为 向 量 对 组 成 

的 集合 ; 








并 4， 且 )，( 入 2 及 3) (和 至 1 2-18 
则 在 理想 情况 下 ,该 网 络 在 完成 训练 后 ;其 权 和 矩阵 存放 的 将 是 上 式 所 给 的 向 量 集合 所 蕴含 的 对 应 
关系 ,也 就 是 输入 向 基 4; 与 输出 向 量 B; 的 映射 关系 。 此 时 网 络 实现 的 映射 是 异 相 联 (Hetero - 
associative) 且 射 。 

由 样本 集 确定 的 映射 关系 被 存放 罕 网 络 中 后 , 当 一 个 实际 的 输入 向 量 被 输入 时 ,网络 应 能 完 
成 相应 的 变换 。 对 异 相 联 映射 来 说 ,如 果 网 络 中 存放 的 集合 为 2 - 18 ,理想 情况 下 , 当 输 和 人 向 量 
为 4; 时 ,网络 应 该 输出 向 量 妃 。 实 际 上 ,在 许多 时 候 ,网 络 答 出 的 并 不 是 有 ,而 是 如 的 一 个 近 
似 向 量 ,这 是 人 工 神经 网 络 计算 的 不 精确 性 造成 的 。 
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当 输 入 向 虹 4 不 是 集合 式 2- 18 的 某 个 元 素 的 第 1 分 量 时 ,网络 会 根据 集合 式 2- 18 给 出 
4 对 应 的 理想 和 输出 的 近似 向 量 妞 。 多 数 情况 下 ,如果 在 集合 式 2- 18 中 不 存在 这 样 的 元 素 (4，， 
了 ) ,使 得 


4 二 过 
或 者 

妾 祥生 袜 允 ) 
用 

4 福生 六 刷 


则 向 量 也 是 B 与 也 的 插值 。 
2.5 人 工 神经 网 络 的 训练 


人 工 神 经 网 络 最 具有 吸引 力 的 特点 是 它 的 学 习 能 力 。1962 年 ,Rosenblatt 给 出 了 人 工 神经 
网 络 著名 的 学 习 定 理 :人 工 神经 网 络 可 以 学 会 它 可 以 表达 的 任何 东西 。 但是, 人工 神 经 网 络 的 表 
达能 力 是 有 限 的 ,这 就 大 大 地 良 制 了 它 的 学 习 能 力 。 

人 工 神经 网 络 的 学 习 过 程 就 是 对 它 的 训练 过 程 。 所 谓 训练 ,就 是 在 将 由 样本 向 量 构成 的 样 
本 集合 (被 简称 为 样本 集 .训练 集 ) 输 入 到 人 工 神经 网 络 的 过 程 中 ,按照 一 定 的 方式 去 调整 神经 元 
之 问 的 联接 权 ,使 得 网 络 能 将 样本 集 的 内 洱 以 联接 权 扼 阵 的 方式 存储 起 来 ,从 市 使 得 在 网 络 接受 
输入 时 ,可 以 给 出 适当 的 输出 。 

导 学 习 的 高 级 形式 来 看 ,一 种 是 有 导师 学 习 , 另 一 种 钙 无 导师 学 习 ,而 前 者 看 起 来 更 为 普遍 
。 无 论 是 学 生 到 学 校 接受 老师 的 教育 ,还 是 自己 读书 学 习 , 都 属于 有 导师 学 习 。 还 有 不 少时 
疾 . 人 们 是 经 过 一 些 实际 经 验 不 断 总 结 学 习 的 ,也 许 这 些 应 该 算 做 无 导师 学 习 。 

从 学 习 的 低级 形式 来 看 , 丽 伯 只 有 无 导师 的 学 习 形式 。 因 为 到 目前 为 止 ,我 们 还 没 能 发 现在 
生物 神经 系统 中 有 导师 学 习 是 如 何 发 生 的 。 在 那里 还 找 不 到 “导师 "的 存在 并 发 挥 作用 的 迹象 ， 
所 有 的 只 是 自 组 织 ,站 适 应 的 运行 过 程 。 


2.5.1 无 时 师 习 


订 懂 


无 导师 堂 习 (Unsupervised Learning ) 与 天 导师 训练 (nsupervised Training) 相 对 应 。 该 方法 
最 咱 由 Kohonen 等 人 提出 。 

虽然 从 学 习 的 高 级 形式 来 看 ,人 们 热 悉 和 习惯 的 是 有 导师 学 习 ,但 是 ,人 工 神 经 网 络 模拟 的 
是 人 脑 思维 的 生物 过 程 。 而 按照 上 述说 法 ,这 个 过 程 应 该 是 无 导师 学 习 的 过 程 。 所 以 ,无 导师 的 
训练 方式 是 人 工 神经 网 络 的 较 只 说 服 力 的 训练 方法 。 

无 导师 训 练 方法 不 需要 目标 ,其 训练 集中 只 含 一 些 输入 向 量 ,训练 算法 致力 于 修改 权 和 矩阵， 
以 使 网 络 对 一 个 输 和 人 能够 给 出 相 容 的 输出 , 即 相似 的 输入 向 量 可 以 得 到 相似 的 输出 向 量 。 

在 训练 过 程 中 ,相应 的 无 导师 训练 算法 用 来 将 训练 的 衬 本 集合 中 蕴含 的 统计 特性 抽 取 出 来 ， 
并 以 神经 元 之 问 的 联接 权 的 形式 存 于 网 络 中 ,以 使 网 络 可 以 按照 向 量 的 相似 性 进行 分 类 。 
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虽然 用 一 定 的 方法 对 网 络 进 行 训练 后 ,可 收 到 较 好 的 效果 。 但 是 ,对 给 定 的 输入 向 基 来 觉 . 
它们 应 被 分 成 多 少 类 ,其 … 个 向 量 应 该 属于 哪 一 类 ,这 一 类 的 输出 向 量 的 形式 是 什么 样 的 .等 等 ， 
部 是 难以 事先 给 出 的 。 从 而 在 实际 应 用 中 ,还 要 求 进 行将 其 输出 变换 成 一 个 可 理解 的 形式 的 工 
作 : 苏 外 ,其 运行 结果 的 难以 预测 性 也 给 此 方法 的 使 用 带 来 了 -- 定 的 障碍 

主要 的 无 导师 训练 方法 有 Hebb 学 习 律 .竞争 与 协同 (Competitive and Cooperative) 学 习 、 随 
机 联接 学 习 (Rahndomly Conneeted Leatning) 等 ， 其 中 Hebb 学 习 律 是 蝶 时 被 提出 的 学 习 算法 ,日 
前 的 大 多 数 算法 都 来 源 于 此 算法 ， 

Hebp 算法 足 DO. Hebb 在 1961 年 提出 的 .该 算法 认为 ,联接 两 个 坤 经 元 的 突 投 的 强度 按 











下 列 规 则 变化 : 
当 商 个 神经 元 同时 处 于 激发 状态 时 被 加 强 ,否则 被 贼 弱 、 可 用 如 下 数学 表达 臣 表 示 : 


+D = 0) ao)ott) 2 -19 
其 中 ,8350 11) 、 研 j( 引 分 别 表 未 神 经 元 AN 到 ANi 的 联接 在 时 刻 : ， 1 和 时 刻 : 的 强度 ， 
oft) soift) 为 这 两 个 神经 元 在 时 刻 ! 的 输出 ,a 为 给 定 的 学 习 率 。 


2 二 3.2 有 有 导师 学 习 


在 人 工 昼 经 网 络 中 ,除了 上 面 介绍 的 无 导师 训练 外 , 还 有 有 导师 训练 。 有 导师 学 习 
(Supervised Learning} 与 有 导师 训练 (Supervised Training) 相 对 度 。 

昌 然 有 导师 训练 从 生物 神经 系统 的 工作 原理 来 说 . 因 难 以 解释 而 受到 一 定 的 非议 ,但 是 ,和 目 
前 看 来 ,有 导师 学 习 却 是 非常 成 功 的 。 因 此 ,需要 对 有 导师 学 习 方法 进行 研究 。 

在 这 种 训练 中 ,要 求 用 户 在 给 出 输入 向 量 的 同时 .还 必须 亲 时 给 出 对 应 的 理想 输出 向 景 。 所 
以 ,采用 这 种 训练 方式 训练 的 网 络 实现 的 是 异 相 联 的 映射 。 输 入 向 量 与 其 对 应 的 输出 向 量 构 成 
一 个 "训练 对 "。 

有 导师 学 习 的 训练 算法 的 主要 步骤 包括 ， 

(1) 从 样本 集合 中 取 一 个 样本 ( 4; ,Bi)， 

(2) 计算 出 网 络 的 实际 输出 0 

(3) 求 D = 有 -0; 

(4) 根据 也 调整 权 和 矩阵 W; 

(5) 对 每 个 样本 重复 上 述 过 程 , 直 到 对 整个 样本 集 来 说 ,误差 不 超过 规定 范围 。 

有 导师 训练 算法 中 ,最 为 重 划 、 应 用 最 普遍 的 是 Dehta 规则 。1960 年 , Widrow 和 Hoff 就 给 
出 了 如 下 形式 的 Delta 规则 

CT+D= 更 人 人 们 Ta 一 o)oft) 2-20 

















也 可 以 写成 
WCG+1 = 元 0) 二 和 且 六 
人 Wi = oa6oi(i) 
妨 = 攻 (9 


Crossberg 的 写法 为 
AH = acifttoftt 一 耳 o(0)) 
更 一 般 的 Delta 规则 为 
QI = Se 人 (Dog WO) 2 2 
上 述 式 子 中 , (t+ 1 、Wi(t) 分 别 表 示 神 经 元 ANi 到 AN, 的 联接 在 时 刻 + 4 1 和 时 刻 * 的 强 
度 ,o(6) .ojft) 为 这 两 个 神经 元 在 时 刻 : 的 输出 ,y 为 神经 元 AN; 的 理想 输 册 ,ui .wwf(0 分 
别 为 神经 元 AN; 和 ANi 的 激 话 状 态 ,e 为 给 定 的 学 习 率 - 


练 习 题 


1. 玫 述 生物 昼 经 系统 的 6 个 基本 特征 。 

2 M-P 烛 型 是 如 何 模拟 生物 神经 元 的 一 阶 特性 的 ? 其 中 的 激活 函数 有 什么 作用 ? 

3. 5 形 函 数 有 什么 特征 ? 它 的 突出 优点 是 什么 ? 除 了 本 章 给 出 的 : 形 函 数 外 ,你 还 知道 包 些 ， 形 函 数 ” 请 
证 明 式 2-8 的 侈 和 值 为 c 和 w+a 且 cc = a + 8 

4， 大 革 神 经 网 络 中 有 电 风 种 联接 ? 它们 各 起 什么 作用 ? 

5. 试 分 析 人 工 神经 网 络 分 层 结构 的 作用 。 

6. 长 期 存储 (LTM) 与 短期 存 峙 (STM) 各 表示 什么 ? 它们 是 如 何在 人 工 神 经 网 乡 中 存在 并 表现 出 米 的 ? 

7. 请 举 出 白 相 联 映 射 和 异 相 联 映 应 的 实例 来 。 

8 Resenblatt 给 出 了 著名 的 人 工 神经 网 络 学 习 定理 ,分 析 并 详细 说 明 该 定理 表达 出 来 的 意思 。 

9. 空间 模式 的 存 取 有 三 种 不 同 的 方式 ,请 问 它们 各 有 什么 特点 ? 你 能 在 哪里 找到 它们 的 应 用 ? 

10. 无 导师 学 习 的 特征 是 什么 ?网 络 是 怎样 在 无 导师 的 条 件 下 完成 学 习 的 ? 

11. 当前 的 研究 表明 ,从 微观 结构 看 ,人 脑 中 进行 的 学 习 是 无 导师 的 。 所 以 ,人 们 在 人 工 神经 网 络 中 引 人 了 
无 导师 学 习 , 在 实际 生活 中 ,也 存在 着 无 导师 学 习 的 情况 , 清 举 出 人 类 生活 中 无 导师 学 习 的 例子 - 

12,， 有 导师 学 习 的 特征 是 什么 y 网 络 是 您 样 在 有 导 力 的 条 件 下 完成 学 习 的 ? 

13. 是 否 可 以 在 一 个 系统 中 既 实 现 无 学 师 学习 又 实现 有 导师 学 习 ? 如 果 可 以 ,你 打算 如 何 实现 ”如 上 不可 
以 ,请 说 明 原 内， 

14. 人 们 已 经 提出 了 -系列 的 人 工 神经 网 络 模型 ,请 根据 本 章 的 内 容 , 预 测 一 个 ,各 种 模型 将 通过 什么 进行 
区 分 ? 

15. 如 果 请 你 用 计算 机 程序 去 完成 对 一 个 人 工 挤 经 网 络 的 模拟 实现 ,你 将 如 何 去 表 示 网 络 中 的 神经 元 及 它 
们 之 癌 的 磋 接 ? 


第 三 章 感 知 器 





感知 只 (Perceptron) 是 最 时 被 设计 并 被 实现 的 人 工 神经 网 络 。 
作为 对 人 工 神经 网 络 的 韦 步 认识 ,本 章 介绍 感知 器 与 人 工 神经 网 络 的 早期 发 展 ;线性 可 分 问 
题 与 线性 不 可 分 问题 ;Hebb 学 习 律 .Delta 规则 ,感知 器 的 训练 算法 。 


3.1 感知 器 与 人 工 神经 网 络 的 早期 发 展 


1943 年 ,MecCulloch 和 Pitts 发 表 子 他 们 关于 人 工 神经 网 络 的 第 一 个 系统 研究 。1947 年 ,他 
们 又 开发 出 一 个 用 于 模式 识别 的 网 络 模型 一 一 感知 器 ,通常 就 叫做 M -了 模型 , 即 阐 值 加 权 和 模 
型 。 图 3- 1 所 示 是 一 个 单 输出 的 感知 器 ,不 难看 出 , 它 实 质 上 就 是 一 个 典型 的 人 工 神经 元 。 按 
昭 M- 了 模型 的 要 求 , 该 人 工 神经 元 的 激活 函数 是 阶 牙 函数 。 为 了 适应 更 广泛 的 问题 的 求解 ,可 
以 接 如 图 3- 所 未 的 结构 ,用 多 个 这 样 的 神经 元 构成 一 个 多 输出 的 感知 器 。 
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图 3…! 单 输出 的 感知 器 (M -了 模型》 图 3->2 输出 感知 器 


由 于 感知 器 的 出 现 ,使 得 人 工 神经 网 络 在 20 世纪 40 年 代 初 步 地 霸 现 出 它 的 功能 及 其 诱 人 
的 发 展 前 景 。M -了 模型 的 建立 ,标志 着 已 经 有 了 构造 人 工 神经 网 络 系统 的 最 基本 构件 。 人 工 
神经 网 络 研 究 的 这 一 初步 成 功 ,使 得 人 们 开始 致力 于 探索 如 何 用 硬件 和 软件 去 实现 神经 生理 学 
家 所 发 现 的 神经 网 络 模型 。 到 了 20 世纪 60 年 代 , 感 知 器 的 研究 获得 了 较 大 的 发 展 ,并 庚 示 了 较 
为 乐观 的 前 最 。1962 年 ,Rosenblatt 证 明了 关于 Perceptron 的 学 习 能 力 的 重要 结论 。 他 向 人 们 
宣布 :人 荆 神 经 网 络 可 以 学 会 亡 能 表示 的 任何 东西 。 正 当 人 们 为 取得 的 巨大 进展 而 高 兴 的 时 候 ， 
部 发 现 了 有 许多 问题 用 人 工 神经 网 络 是 无 法 解决 的 。Minsky 严格 地 对 问题 进行 了 分 析 , 证 明了 
单 级 网 无 法 解决 晃 或 "等 最 基本 的 问题 。 这 使 得 人 工 神 经 网 络 一 下 子 被 打 人 了 冷 宫 ,使 其 发 展 
从 第 一 个 高 潮 期 进 和 人 了 到 思 期 。 有 人 认为 ,Minsky 的 悲观 观点 就 象 是 在 人 工 神经 阿 络 研究 的 历 
史 长 河中 筑 起 了 一 道 大 坝 “ 研 究 " 有 机 会 在 此 积蓄 力量 ,为 今后 的 发 展 打下 必要 的 基础 。 实 际 
上 ,人工 神 经 网 络 的 发 展 史 ,也 表现 出 人 们 对 问题 的 "认识 、 实 践 ,再 认识 .再 实 践 "的 过 程 。 
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3.2 感知 器 的 学 习 算法 


感知 器 的 学 习 必 有 导师 学 习 。 

感知 器 的 训练 算法 的 基本 原理 米 源 于 著名 的 Hebb 学 习 律 ,其 基本 思想 是 :逐步 地 将 样本 集 
中 的 样本 输入 到 网 络 中 ,根据 输出 结果 和 理想 输出 之 间 的 差别 来 蛮 整 网 络 中 的 权 矩 隆 。 作 为 本 
书 介绍 的 第 一 个 人 工 昼 经 网 络 模型 ,本 节 将 按 离 散 单 输出 感知 器 .离散 多 输出 感知 器 .连续 多 答 
出 感知 器 分 别 详细 地 叙述 相应 的 算法 ,日 的 在 于 引导 读者 了 解 和 人 掌握 用 计算 机 程序 实现 人 工 神 
经 网 络 的 基本 方法 。 


参考 图 3 下, 设 F 为 相应 的 激活 阴 数 , 先 按 阔 值 函数 来 考 凡 有 关 问题 。 约 定 今后 对 这 类 自 
变量 及 其 项 数 的 值 .向 基 分 量 的 值 只 取 0 和 ]1 的 盟 数 和 向 量 ,都 简称 为 二 值 的 ,按照 这 种 约定 ， 
使 用 姜 信 函数 作为 激活 函数 的 网 络 就 是 二 值 网 络 。 另 外 , 设 为 网 络 的 权 向 景 ,X 为 输入 向 
朋 ， 





十 = (eyeavao) 
有 = (zzaeoazn) 
网 络 的 训练 样本 集 为 
1(X,Y) 1 发 为 输入 向 量 ,Y 为 X 对 应 的 输出 | 
此 时 ,可 有 如 下 离散 单 输出 感知 器 训练 算法 : 


算法 3-1 离散 单 输出 感知 器 训练 算法 
1 初始 化 权 向 量 罗 ; 
2 重复 下 列 过 程 ,直到 训练 完成 ; 
2.1 对 样本 集中 的 每 一 个 样本 ( 瑟 ,Y) ,重复 如 下 过 程 ， 
2.1.1 输入 ; 
2.1.2 计算 DO = F(XKW); 
2.1.3 如 果 输 出 不 正确 , 则 
当 o=0 时 , 服 印 = 钱 + Xi 
当 o=1 时 , 取 印 = 印 - 胡 


上 述 算法 中 , 当 e = 0 时 , 按 W + 大 修改 权 向 量 丁 。 这 是 因为 ,理想 输出 本 来 应 该 是 1 ,但 
现在 却 旦 0, 所 以 ,相应 的 权 认 该 增加 ,而 且 是 增加 对 该 样本 的 实际 输出 真正 有 贡献 的 权 。 当 " 
= 1 时 答 好 相反 ,详细 情况 读者 自己 可 以 进行 分 析 。 


3.2.2 高 散 多 输出 感知 器 训练 工法 





参考 图 3-2 , 设 下 为 网 络 中 神经 元 的 激活 咀 数 , 钱 为 权 撼 阵 ， vs 为 输入 向 量 的 第 ; 个 分 量 
到 第 7 个 神经 元 的 民 接 权 : 
四 一 as 
网 络 的 训练 样本 集 为 ; 
1 Y) : 蕊 为 输 人 向 量 ,T 为 蕊 对 应 的 输出 ! 
这 里 ,假定 X.Y 分 别 是 维 数 为 ” 的 输入 向 量 和 维 数 为 刀 的 理想 输出 向 量 ; 
芯 = (zyra zi) 
YY (000 
之 所 以 称 了 为 输入 向 星 导 的 理想 输出 向 量 , 是 为 了 与 网 络 的 实际 输出 向 量 O 相 区 别 。 之 
所 以 将 (X, 了) 选 做 样本 ,是 因为 在 实际 系统 (这 里 指 人 工 神经 网 络 所 模拟 的 对 象 ) 运 行 中 , 当 遇 
到 输入 向 量 X 时 ,系统 会 输出 向 量 Y， 显 然 ,也 希望 相应 的 人 工 神经 网 络 在 接受 到 输入 向 量 
时 ,也 能 输出 向 量 Y。 但 是 ,出 于 人 工 神经 网 络 是 对 实际 系统 的 模拟 ,再 加 上 它 的 不 精确 性 , 它 实 
际 上 很 难 在 接受 输入 向 量 下 时 ,精确 地 输出 向 量 了 。 此 时 网 络 会 输出 了 的 -个 近似 向 最 D; 
人 = (oo yon) 
为 了 区 分 向 量 了 和 @, 称 了 是 X 对 应 的 理想 输出 向 量 ; O 是 开 对 应 的 实际 输出 向 量 。 在 离 
散 多 输出 感知 器 中 ,由 于 它 含 有 多 个 输出 神经 元 ,因此 ,在 训练 算法 的 组 织 上 不 能 再 沿用 算法 3 
-1 的 实现 方式 。 但 是 ,仍然 遵循 相同 的 原理 ,按照 柯 同 的 思想 去 实施 对 各 联接 权 的 调整 。 具 体 
算法 如 下 : 





算法 3- 2 离散 多 输出 感知 器 训练 算法 
] 轴 始 化 权 失 阵 厂 ; 
2 重复 下 列 过 程 ,直到 训练 完成 : 
2.1 对 样本 集中 的 每 一 个 样本 (X,Y) ,重复 如 下 过 程 ; 
2.1.1 输 人 XI 
2.1.2 计算 O=F(XW); 
2.1.3 fori=ltom 扫 行 如 下 操作 : 
革 必 和 yi then 


证 ao= 0thenfory = 1to 





了 二 
else forj = 1 to 


二 


在 算法 中 ,依次 对 输出 层 的 每 个 昼 经 元 的 理想 输出 和 实际 输出 进行 比较 。 如 果 它 们 不 相 
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问 , 则 对 相应 的 联接 权 进 行 修改 ， 相 当 于 将 对 离散 单 输出 感知 器 的 神经 无 的 处 理 压 个 地 用 于 讽 
散 多 输出 感知 器 输出 层 的 每 一 个 神经 元 。 

在 算法 3-1 和 3-2 中 ,第 1 步 ,要 求 对 神经 元 的 联接 权 进 行 初始 化 。 在 程序 的 实现 中 ,就 
是 给 W 一 个 初 值 。 实 验 表明 ,对 大 部 分 网 络 模 志 来 说 (也 有 例外 情况 ). 环 的 各 个 元 素 不 能 用 相 
问 的 数据 进行 初始 化 ,因为 这 样 会 使 网 络 失去 学 习 能 力 。 一 般 地 ,使 用 一 系列 小 伪 随 机 数 对 你 
进行 韦 始 化 。 

第 2 步 的 控制 是 说 “重复 下 列 过 程 , 直 色 训 练 完成 ": 但 是 ,什么 情况 下 为 “训练 帘 威 " 呢 ? 一 
和 角 地 ,很 蕉 对 每 个 样本 重复 一 次 就 可 以 达到 精度 资 求 ,算法 必须 经 过 风 次 的 多 代 , 才 有 可 能 使 网 
络 的 精度 达到 医 求 。 问 题 是 如 何 来 控制 这 个 迭代 次 数 。 一 种 方法 是 对 样本 集 执行 规定 次 数 的 选 
代 , 巡 一 种 方法 是 给 定 一 个 精度 控制 参数 ,第 三 种 方法 是 将 这 两 种 方法 结合 起 来 使 用 。 这 虫 所 说 
的 精度 是 指 网 络 的 实际 输出 与 理想 输出 之 间 的 莽 别 ， 

对 第 一 种 方法 ,可 以 采用 如 下 方式 加 以 实现 ;, 没 沉 一 个 参数 ,用 来 纪 杂 算法 的 选 代 次 数 。 辣 
时 ,在 程序 中 设 定 一 个 最 大 循环 次 数 的 值 。 当 选 代 次 数 示 达到 该 值 时 ,迭代 继续 进行 ;当选 代 次 
数 超过 此 值 时 , 达 代 停止 。 该 方法 存在 的 问题 是 ,对 一 个 给 定 的 样本 集 ,事先 并 不 知道 究 意 需 要 
挝 代 多 少 次 ,网 络 的 精度 才 可 以 达到 用 户 的 要 求 . 迁 代 的 次 数 太 多 .会 损失 训练 算法 的 效率 ; 选 
代 的 次 数 太 少 ,网 络 的 精度 就 难以 达到 用 户 的 要 求 - 因此 ,仅仅 用 适 代 的 次 数 实施 对 网 络 训练 的 
控制 是 难以 取得 邻 人 满意 的 结果 的 。 一 种 改进 的 方法 是 采用 分 阶段 进行 选 代 的 控制 方法 ; 设 定 

-个 基本 的 迭代 次 数 N ,每 当 训练 完成 N 次 迁 代 后 .就 给 出 一 个 中 间 结 果 。 如 果 此 中 则 结果 满 
是 要 求 , 则 停止 训练 ;否则 ,将 进行 下 一 个 N 次 选 代 训练 。 如 此 下 去 ,直到 训练 完成 。 当 然 , 这 样 
做 需要 程序 能 够 实现 训练 的 暂停 .继续 停止 等 控制 。 

第 二 种 方法 的 实现 与 第 -- 种 方法 的 实现 类 似 ,只 是 比较 的 对 象 不 同时 了 。 这 种 方法 昌 解 次 
的 问题 有 两 个 :首先 ,要 解决 精度 的 度量 问题 ,最 简单 的 方法 是 用 所 有 样本 的 实际 输出 向 量 与 理 
想 答 出 向 景 的 对 应 分 重 的 养 的 绝对 值 之 和 作为 误 益 的 度量 。 另 一 种 简单 的 方法 是 用 所 有 样本 的 
实际 输出 向 量 与 理想 输出 向 量 的 欧 氏 距离 的 和 作为 误差 的 度量 。 一 般 地 ,用 户 可 以 根据 实际 问 
题 ,选择 一 个 适当 的 度 灵 。 其 次 ,存在 这 样 的 可 能 ,网 络 无 法 表示 样本 所 代表 的 问题 。 在 这 种 情 
况 下 ,网 络 在 训练 中 可 能 总 也 达 不 到 用 户 的 精度 要 求 。 这 时 ,训练 可 能 成 为 “ 死 循 环 "。 

为 了 用 这 末 种 方法 各 自 的 优点 去 弥补 对 方 的 缺点 ,可 以 将 这 两 种 方法 结合 起 来 综合 使 用 , 构 
成 第 三 种 方法 。 也 就 是 同时 使 用 选 代 次 数 和 精度 来 实现 训练 控制 。 

在 精度 控制 中 ,用 户 禹 要 首先 根据 实际 问题 ,给 定 一 个 训练 精度 搞 制 参数 。 建 议 在 系统 初始 
测试 阶段 ,这 个 精度 要 求 可 以 低 一 些 , 测 坛 完成 后 ,再 给 出 实际 的 精度 要 求 。 这 样 做 的 目的 是 , 串 
免 在 测试 阶段 花费 太 多 时 间 ,因为 有 时 训练 时 间 是 很 长 的 。 

还 需要 指出 的 是 ,在 算法 的 实现 中 ,读者 还 可 以 采用 一 些 方法 ,从 不 同 的 角度 去 提高 算法 的 
数 率 。 


3.2.3 连续 多 输出 感知 器 训练 算法 


在 掌握 了 感知 器 的 基本 训练 算法 后 ,现在 将 感知 器 中 各 神经 元 的 输出 数 改 成 非 阶 夏 诅 数 ， 
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使 它们 的 输出 值 变 成 是 连续 性 的 ,从 而 使 得 网 络 的 输入 ,输出 向 量 更 其 -- 般 性 ,更 容易 适应 应 用 
的 要 求 ,达到 较 好 地 扩充 网 络 的 功能 和 应 用 范围 的 日 的 。 由 于 只 是 网 络 的 神经 元 的 激活 函数 发 
生 了 变化 ,其 拓扑 结构 仍然 不 变 , 所 以 在 下 面 讨论 连续 多 输出 感知 器 训练 算法 时 ,仍然 参考 图 3 
一 2 有 .0 了 .sm 等 参数 的 意义 如 上 所 述 。 在 下 面 给 出 的 算法 3 - 3 中 ,我 们 使 用 上 面 提 
到 的 第 二 种 方法 来 实现 对 造 代 次 数 的 控制 。e 被 用 来 表示 训练 的 精度 要 求 。 不 同 的 是 ,在 这 时 ， 
X .的 分 量 的 值 可 以 是 一 般 的 实数 ， 


算法 3- 3 连续 多 输出 感知 器 训练 算法 
1 用 适当 的 小 伤 随 机 数 初始 化 权 矩 阵 砚 ; 
2 初 置 精度 控制 参数 。 ,学 习 率 x ,精度 控制 变革 = e + 1 
3 While 4d 袜 e do 
3.1 dd=0 
3,2 for 每 个 样本 (和 ,了 )do 
3.2.1 输入 于 (=(rivzayrn))3 
3.2.2 求 D= 了 (KW); 
3.2.3 修改 权 抑 阵 研 ; 
fory = liopnj =1ltomdo 
人 
3.2.4 昧 积 误差 
for = 1rodo 


@ = (oo 


在 上 述 算法 中 ,用 公式 wj = wp + a( -om 取代 了 算法 3-2 第 2.1.3 步 中 的 多 个 判断 。 届 
与 必 之 间 的 差别 对 wy 的 影响 由 c(y - oj)z; 表现 出 来 。 这 样 处 理 之 后 ,不 仅 使 得 算法 的 控制 在 
结构 上 更 容易 理解 ,而 且 述 使 得 它 的 适应 面 更 宽 。 

当 用 计算 机 程序 实现 该 算法 时 ,se ,a .di ja mm 均 可 以 用 简单 变量 来 表示 , 多 可 以 用 一 
个 行 加 列 的 二 维 数组 存放 。 建 议 将 样本 集 用 两 个 一 维 数组 存放 ,一 个 疡 行 ” 列 的 二 维 数组 用 
米 存放 输入 向 量 集 , 它 的 每 一 行 表示 一 个 输入 身 量 ; 另 一 个 户 行 关 列 的 二 维 数组 用 来 存放 相应 
的 理想 输出 向 量 集 , 它 的 每 一 行 表示 一 个 对 应 的 理想 输出 向 量 。 读 者 也 可 以 根据 自己 的 习惯 确 
定 存放 这 些 数据 的 方式 。 

另外 ,在 系统 的 调试 过 程 中 ,可 以 在 适当 的 位 置 加 入 一 些 语句 ,用 来 显示 网 络 目前 的 状态 。 
如 按 一 定 的 间 取 显 示 实 际 输出 向 量 与 理想 输出 向 量 的 比较 . 联 撤 矩阵 、 误 益 测 度 等 ,使 得 系统 的 
调试 过 程 可 以 在 设计 者 /调试 者 的 良好 控制 下 进行 。 当 然 ,根据 需要 ,也 可 以 将 这 些 数据 以 文件 
的 形式 存放 起 来 ,以 便于 过 后 进行 更 深入 的 分 析 。 

实际 上 ,上 面 给 出 的 算法 只 是 一 些 基本 算法 ,在 实现 过 程 中 ,读者 还 可 以 对 它们 进行 适当 的 
修改 ,以 使 它们 有 更 高 的 运行 效率 ,并 能 获得 更 好 的 效果 。 
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上 述 感知 器 的 训练 算法 , 述 有 一 些 值得 注意 的 问题 。 

一 方面 ,Minsky 曾经 在 1969 盾 证 明 , 有 许多 基本 问题 是 感知 器 无 法 解决 的 ,这 类 问题 被 称 
为 线性 不 可 分 问题 。 所 以 ,算法 遇 到 的 第 一 个 问题 十, 样本 集 所 代表 的 问题 是 否 是 线性 可 分 的 ? 
由 十 笛 样 的 随机 性 ,有 时 其 至 会 出 现 这 样 的 现象 :问题 本 身 是 线性 可 分 的 ,但 樟 本 集 反 映 出 来 的 
却 是 线性 不 可 分 的 ,或 者 相反 。 这 虽然 是 抽 样 的 技术 问题 ,但 在 实际 上 是 存在 的 。 因 此 ,也 上 应该 
引起 足够 的 重视 。 将 这 一 问题 作为 困扰 感知 器 的 第 一 个 问题 。 

第 二 ,由 于 世界 是 在 不 断 变 化 的 ,所 以 ,一 个 问题 可 能 在 某 一 时 刻 是 线性 可 分 的 ,而 在 另 一 时 
刻 又 变 得 线性 不 可 分 。 这 类 问题 的 处 理 就 更 为 困难 了 。 

第 三 ,由 于 问题 是 通过 抽样 得 来 的 实际 数据 表示 的 , 它 很 可 能 不 是 我 们 习惯 的 数据 模型 的 表 
现形 式 。 所 以 ,很 难 直接 从 样本 数据 集 看 出 该 问题 是 否 是 线性 可 分 的 。 

此 外 ,未 能 证 明 ,一 个 感知 器 究竟 需要 经 过 多 少 步 才能 完成 训练 。 而 且 , 给 出 的 算法 是 否 优 
于 穷 举 法 ,也 是 未 能 说 明 的 。 在 简单 情况 下 , 穷 举 法 可 能 会 更 好 。 

显然 ,上 述 问 题 都 是 与 样本 集 相关 的 。 这 就 相当 于 说 ,问题 ( 指 被 模拟 的 系统 ) 本 身 对 感知 器 
的 影响 是 非常 大 的 。 下 面 ,来 考虑 线性 不 可 分 问题 。 











3.3 线性 不 可 分 问题 


南 Rossenblatt 所 给 出 的 感知 器 的 学 习 定 理 表 明 ,感知 风 可 以 学 会 它 所 能 表达 的 任何 东西 。 
与 人 类 的 大 脑 相同 ,表达 能 力 和 学 习 能 力 是 不 同 的 “表达 "是 指 感知 器 模拟 特殊 功能 的 能 力 ,而 
学 习 要 求 由 一 个 用 于 调整 联接 权 以 产生 具体 表示 的 一 个 过 程 的 存在 。 显 然 , 如果 感知 器 不 能 够 
表达 相应 的 问题 ,就 天 从 考虑 它 古 否 能 够 学 会 该 问题 了 。 所 以 ,这 里 的 “ 它 能 麦 示 " 成 为 问题 的 关 
键 。 也 就 是 说 ,是 否 存在 一 些 问题 ,它们 不 能 被 感知 器 表 示 呢 ? 

前 面 已 经 提 到 ,Minsky 在 1969 年 就 指出 ,感知 器 甚至 无 法 解决 像 * 异 或 "这 样 简单 的 问题 。 
那么 ,这 类 问题 是 什么 样 的 问题 ? 它 有 什么 特点 ? 除了 “和 异 或 ", 还 有 多 少 这 样 的 问题 ?这样 的 问 
题 是 有 限 的 么 ”下面 从 " 异 或 "问题 人 手 进行 相应 的 分 析 ,希望 找 出 这 一 类 问题 的 特性 来 ,以 寻找 
相应 的 解决 方法 。 


3.3.1 异 或 (Exclusive - OR) 问 题 


Minsky 得 出 的 最 令 世 人 失望 的 结果 是 :感知 器 区 法 实现 最 基本 的 “ 异 或 运算。 而“ 异 或 " 运 
算是 电子 计算 机 最 基本 的 运算 之 一 。 这 就 预示 着 人 工 神经 网 络 将 无 法 解决 电子 计算 机 可 以 解决 
的 大 其 的 问题 。 因 此 , 它 的 功能 是 极为 有 限 的 ,是 没有 前 途 的 。 那 么 ,感知 器 为 什么 无 法 解决 “ 异 
或 "问题 呢 ? 先 看 " 异 或 "运算 的 定义 











0 证 工 二 YY 
皇 (zy) = 11 其 他 
相 点 的 真 值 表 如 表 3 - 工 所 未。 
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表 3- 1 异 或 运算 的 真人 未 
(，-- 过 牛 对 象 > 





TO 


1 
运 凌 对 象 < 一 2 


~ | 1 Li 0 








由 定义 可 知 ,这 是 一 个 双 输 和 . 单 输出 的 问题 . 也 就 是 说 ,如 果 感 知 器 能 够 表达 它 , 则 此 感知 
器 输入 应 该 是 一 个 二 维 向 量 , 输 出 则 为 标 景 。 因 此 ,该 感知 器 可 以 只 含有 一 个 神经 元 。 为 方便 起 
见 , 设 输入 向 星 为 (r,?) ,输出 为 ,神经 元 的 岗 值 为 4。 感知 器 如 图 3- 3 所 示 , 图 3-4 所 示 是 
网 络 男 数 的 图 像 。 显 然 ,无 论 如 何 选择 = ,5 、0 的 值 , 都 无 法 使 得 直线 将 点 (0,0) 和 点 (1,1)( 它 们 
对 应 的 函数 值 为 0) 与 点 (0,1) 和 点 (1;0)( 它 们 对 应 的 巩 数 值 为 1) 划 分 开 来 。 即 使 使 用 形 函 
数 ,也 难以 做 到 这 一 点 。 这 种 由 单 级 感知 器 不 能 表达 的 问题 被 称 为 线性 不 可 分 问题 . 


图 3-3 单 神经 元 感知 器 图 3-4 半 面 划分 


有 了 上 述 思 路 ,来 考察 只 有 两 个 自 变量 且 自 变 最 只 取 0 或 上 的 函数 的 基本 情况 。 表 3 -2 给 
出 了 所 有 这 种 函数 的 定义 。 其 中 ,局 为 线性 不 可 分 的 ,其 他 均 为 线性 可 分 的 。 不 过 , 当 变 量 
的 个 数 较 多 时 ,难以 找到 一 个 较 简单 的 方法 去 确定 一 个 函数 是 否 为 线性 可 分 的 。 事 实 上 ,这 种 线 
性 不 可 分 的 函数 随 着 变量 个 烙 的 增加 而 快速 增加 ,甚至 远 远 超过 了 线性 可 分 函数 的 个 数 。 现 在 ， 
我 们 仍然 只 考虑 二 值 函数 的 情况 。 设 函数 有 ” 个 自 变量 ,因为 每 个 自 变 量 的 值 只 可 以 取 10 或 1， 
从 而 丽 数 共有 2" 个 输入 模式 。 在 不 同 的 函数 中 ,每 个 模式 的 值 可 以 为 0 或 者 1。 这 样 , 我 们 总 共 


可 以 得 到 22 种 不 同 的 函数 。 表 3 - 3 是 R. O、Windner 1960 年 给 出 的 " 为 1~.6 时 二 值 冰 数 的 
个 数 以 及 其 中 的 线 竹 可 分 函数 的 个 数 的 研究 结果 。 从 中 我 们 看 出 , 当 ”大 于 等 于 4 时 ,线性 不 
可 分 丽 数 的 个 数 远 远大 于 线 性 可 分 函数 的 个 数 。 而 且 随 着 " 的 增 大 ,这 种 差距 会 在 数量 级 上 越 
来 越 大 。 这 才 明 ,感知 器 不 能 表达 的 问题 的 数量 远 远 超过 了 它 所 能 表达 的 问题 的 数量 。 这 也 难 
怪 当 Minsky 给 出 感知 器 的 这 一 致命 缺陷 和 时 ,会 使 人 工 神经 网 络 的 研究 跌 人 漫长 的 黑暗 期 。 








表 3-2 人 两 个 自 变量 的 所 有 二 值 画 数 
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到 了 20 世纪 60 年 代 后 期 ,人 们 就 弄 清 楚 了 线性 不 可 分 问题 ,并 且 知 道 , 单 级 网 的 这 种 限制 
可 以 通过 增加 网 络 的 层 数 来 解决 。 
事实 上 ,一 个 单 级 网 络 可 以 将 平面 划分 成 两 部 分 ,用 多 个 单 级 网 组 会 在 一 起 ,并 用 其 中 的 一 





个 去 综合 其 


他 单 级 网 的 结果 ,就 可 以 构成 一 个 两 级 网 络 ,该 网 络 可 以 被 用 来 在 平面 上 划分 出 一 个 


封闭 或 者 开放 的 凸 域 来 。 如 图 3 一 5 所 示 , 如 果 第 1 层 含有 = 个 神经 元 , 则 每 个 神经 元 可 以 确定 
一 条 ” 维 空间 中 的 直线 ,其 中 , AN; 用 来 确定 第 ; 条 边 。 输 出 层 的 AN, 用 来 实现 对 它们 的 综合 。 
这 样 , 就 可 以 用 一 个 两 级 单 输出 网 在 ” 维 室 间 中 划分 出 一 个 六 边 凸 域 来 。 在 这 里 ,图 中 第 2 层 





的 昼 经 元 村 


当 于 一 个 与 门 。 当 然 , 根 据 实际 需要 ,输出 层 的 神经 元 可 以 有 多 个 。 这 可 以 根据 网 络 


要 模拟 的 实际 问题 来 决定 。 
按照 这 些 分 析 ,很 容易 构造 出 第 一 层 含 两 个 神经 元 ,第 二 层 含 一 个 神经 元 的 两 级 网 络 来 实现 


六 一 一 4No 














弄 3-5 两 级 单 输出 网 











当然 , 箱 出 层 的 神经 元 可 以 不 仅仅 实现 “与 "运算 , 它 也 可 以 实现 其 他 类 型 的 函数 。 
此 外 ,网 络 的 输入 输出 也 可 以 是 非 二 值 的 ,这 样 ,网 络 识别 出 来 的 就 是 一 个 连续 的 域 ,而 不 仅 


仅 是 域 中 的 有 限 个 离散 的 点 。 





-个 非 世 域 可 以 拆 分 成 多 个 凸 域 。 因 此 ,三 级 网 将 会 更 一 般 一 些 ,可 以 用 它 去 识别 出 一 些 非 
凸 域 米 。 而 且 在 一 定 的 范围 内 ,网 络 所 表现 出 来 的 分 类 功能 主要 受到 神经 元 的 个 数 和 各 个 联接 





，37 ， 


权 的 限制 。 这 些 问题 显然 又 是 与 问题 紧密 相关 的 。 

多 级 网 络 昌 然 很 好 地 解决 了 线性 不 可 分 问题 ,但 是 ,由 于 无 法 知道 网 络 耻 藏 层 的 神经 元 的 理 
杷 输出 ,所 以 .感知 器 的 训练 算法 是 难以 直接 用 于 多 层 网 的 训练 。 因 此 ,在 多 级 网 训练 算法 的 设 
计 中 , 般 决 好 隐藏 层 的 联接 权 的 调整 问题 是 非常 关键 的 。 


练习 题 


1. 般 述 感知 器 的 体系 结构 ,并 指出 输入 /输出 向 量 的 实际 意义 、 
2 请 用 你 熟 亚 的 -种 计算 机 滞 言 实现 算法 3- 1, 并 用 你 的 实现 完成 对 0.1,2,3,…, 的 奇偶 性 的 识别 ( 提 
不, 请 首先 给 出 这 10 个 数字 的 适当 表示 ) 
3 清 用 你 熟悉 的 一 种 计算 机 千言 实现 算法 3- 2. 在 实现 中 , 广 意 对 本 章 所 给 的 丙种 精度 控制 方法 的 实验 ， 
.请 用 你 熟悉 的 一 种 计算 机 证 吉 实 现 算法 3- 3 
对 你 实现 的 等 法 3 - 3, 寻找 两 个 不 同 的 样本 集 ,它们 一 个 使 训练 收 策 , 另 一 个 使 训练 发 散 。 
什么 叫 线性 不 可 分 问题 ? 早期 的 感知 器 为 什么 不 能 表示 线性 不 可 分 问题 ? 
7. 用 多 级 网 络 可 以 克服 线性 不 可 分 问题 ,出 多 级 网 络 似乎 意 " 简 单 地 “由 多 个 单 级 网 络 " 审 接 * 而 成 的 ,但 人 
工 神经 网 络 的 全 究 在 这 段 路 上 却 走 了 许多 年 。 你 认为 ,困难 在 条 处 ”你 有 克服 这 个 困难 的 思路 么 ? 
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第 四 章 BP 网 络 


在 上 一 章 介绍 的 感知 器 的 算法 中 ,理想 输出 与 实际 输出 之 差 被 用 来 估计 直接 到 达 该 神经 元 
的 联接 的 权重 的 误差 。 当 为 解决 线性 不 可 分 问题 而 引信 多 级 网 络 后 ,如 何 估计 网 络 隐藏 层 的 昼 
经 元 的 误差 就 成 了 难题 。 因 为 在 实际 中 ,无 法 知道 隐藏 层 的 任何 神经 元 的 理想 输出 值 ，BP 
(Back bropagation) 算 法 在 于 利用 输出 层 的 误差 来 估计 输出 层 的 直接 前 导 层 的 误差 ,再 用 这 个 误 
益 估计 更 前 一 层 的 误差 。 如 此 下 去 ,就 获得 了 所 有 其 他 各 层 的 误差 估计 。 这 样 就 形成 了 将 输出 
端 表 现 出 的 误差 灌 着 与 输 和 人 信和 号 传送 相反 的 方向 逐 级 向 网 络 的 输入 端 传递 的 过 程 。 因 此 ,人 们 
将 此 算法 称 为 向 后 传播 算法 ,简称 BP 算法 。 使 用 BP 算法 进行 学 习 的 多 级 非 循环 网 络 称 为 BP 
网 络 。 虽 然 这 种 误差 估计 本 身 的 精度 会 随 着 误差 本 身 的 "向 后 传播 "而 不 断 降低 ,但 它 还 是 给 多 
尼 网 络 的 训练 提供 了 较 有 效 的 办 法 。 所 以 ,多 年 来 该 算法 受到 了 广泛 的 关注 。 

本 章 将 介绍 BP 网 络 的 构成 及 其 训练 过 程 ;隐藏 层 权 调整 为 法 的 直观 分 析 ,BP 训练 算法 中 使 
用 的 Delta 规则 (最 速 下 降 法 ) 的 理论 推导 ;算法 的 收敛 速度 及 其 改进 讨论 ;BP 网 络 中 的 凡 个 重要 
问题 。 





4.1 概 述 


BP 算法 是 非 循环 多 级 网 络 的 训练 算法 。 虽 然 该 算法 的 收敛 速度 非常 慢 , 但 由 于 它 有 具有 广泛 
的 适用 性 ,使 得 它 在 1986 年 才 提 出 后 ,很 快 就 成 为 应 用 最 为 广泛 的 多 级 网 络 训 练 算法 ,并 对 人 工 
神经 网 络 的 推广 应 用 发 挥 了 重要 作用 。 

人 们 公认 ,BP 算法 对 人 了 工 神 经 网 络 的 第 二 次 研究 高 潮 的 到 来 起 到 了 很 人 的 作用 。 从 某 种 意 
义 上 讲 ,Bb 算法 的 出 现 , 结 束 了 多 层 网 络 没 有 训练 算法 的 历史 ,并 被 认为 是 多 级 网 络 系统 的 训练 
方法 。 此 外 , 它 还 有 很 强 的 数学 基础 ,所 以 ,其 联接 权 的 修改 是 令 人 信服 的 。 

但 是 ,BP 算法 也 有 它 的 弱点 。 非 常 慢 的 训练 速度 ,高 维 曙 而 上 局 部 极 小 点 的 和 逃离 问题 .算法 
的 收 分 问 题 等 都 是 困扰 BP 网 络 的 严重 问题 ,尤其 是 后 面 的 两 个 问题 ,甚至 会 导致 网 络 的 失败 。 
虽然 它 有 这 样 一 些 限制 ,并 且 有 许多 难以 令 人 满意 的 地 方 ,但 是 ,其 广泛 的 适应 性 和 有 效 性 使 得 
人 工 神经 网 络 的 应 用 范围 得 到 了 较 大 的 扩展 。 

从 BP 算法 被 重新 发 现 到 引起 人 们 的 广泛 关注 并 发 挥 巨大 的 作用 ,应 该 归功 于 UCSD 的 
PDP(Parallel Distribured Proeessing) 研 究 小 组 的 Rumeihart ,Hinton 和 Wiliams。 他 们 在 1986 年 
独立 地 给 出 了 BP 算法 清楚 而 简单 的 描述 ,使 得 该 算法 非常 容易 让 人 掌握 并 加 以 实现 。 另 外 ,由 
于 此 时 人 们 对 人 工 神经 网 络 的 研究 正 处 于 第 二 高 潮 期 ,而且 PDP 小 组 在 人 工 神 经 网 络 上 的 丰 刘 
的 研究 成 果 也 给 其 发 表 能 受到 广泛 的 关注 提供 了 便利 条 件 。 在 该 成 果 发 表 后 不 久 人 们 就 发 现 ， 
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早 在 1982 年 Paker 就 完成 了 相似 的 工作 。 后 来 人 们 进一步 地 发 现 , 甚 至 在 更 早 的 1974 年 ， 
Werbos 就 已 提出 了 该 方法 的 撒 述 。 录 导 的 是 ,无 论 是 Paker, 还 是 werbos, 他 们 的 工作 在 完成 并 
发 表 十 余年 后 ,都 没 能 引起 人 们 的 关注 ,这 无 形 中 导致 了 多 级 网 络 的 训练 算法 及 其 推广 虚 用 向 后 
推迟 了 十 余年 。 通 过 这 件 事情 ,也 应 该 看 到 ,要 想 使 重要 的 研究 成 果 能 引起 广泛 的 重视 而 尽快 发 
挥 作用 ,论文 的 发 表 也 是 非常 重要 药 。 





4,2 基本 BP 算 法 


4.2.1 网 络 的 构成 


1 神经 元 

与 一 般 的 人 工 神经 网 络 一 样 , 狗 成 BP 网 的 神经 元 仍然 是 2.2 节 中 定义 的 神经 元 。 按 照 BP 
算法 的 要 求 ,这 些 神 经 元 所 用 的 激活 函数 必须 是 处 处 可 导 的 。 一 般 地 ,多数 设 计 者 都 使 用 ， 形 函 
数 。 对 一 个 神经 元 来 说 , 取 它 的 网 络 输 人 

6 二 之 1tD1 十 2T2 十 十 at 

其 中 ,ztvza…vazw 为 该 神经 元 所 接受 的 输入 ,zi, zz， ,au 分 别 是 它们 对 应 的 联 稳 权 。 该 神 
经 元 的 输出 为 

1 
+ 
其 相应 的 图 像 如 图 4-1 所 示 。 当 aef = 0 时 ,o 取 值 为 0.5, 并 且 net 落 在 区 则 ( -0.6,0.6) 中 
时 ,o 的 变化 率 比较 大 ,而 在 (- 1,1) 之 外 ,o 的 变化 率 就 非常 小 。 


= Fnef) = 二 一 上 





现 求 "关于 net 的 导数 ， 

ee 
六 (net) = (Te (+ 人 于 

-1 -1 

] + 人 吧 1 十 Em 

=o-o=ol-o) 
注意 到 。 

1 


根据 式 4- | 可 知 ,o 的 值 域 为 (0,1), 从 而 , 广 ( er) 揭 值 域 为 (0,0,25) ,而且 是 在 。 为 0.5 
时 , 广 (net) 达到 极 大 值 。 其 图 像 如 图 4 -2 所 示 。 

请 读者 注意 ,图 4 -1.4-2 告诉 我 们 ,在 后 续 对 训练 的 讨论 中 ,应 该 将 net 的 值 尽量 控制 在 
收 伍 比 较 快 的 范围 内 。 

实际 上 ,也 可 以 用 其 他 函数 作为 BP 网 络 神经 元 的 激活 函数 ,只 要 该 函 教 是 处 处 可 导 的 。 
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图 4-1 BP 网 的 神经 苑 的 激活 示 数 的 图 像 图 4-2 产 (oef) 的 图 像 


2. 网 络 的 拓扑 结构 

BP 网 的 结构 如 图 2 一 7 了 所 示 ， 实 际 上 ,只 需 用 一 个 二 级 网 络 ,就 可 以 说 明 BP 算法 。 一 般 地 ， 
设 BP 网 络 的 输 人 样本 集 为 

1(X, 了 ) 大 为 输 和 向量 ,了 为 于 对 应 的 理想 输出 向 量 | 

网 络 且 层 ,第 AlI 扫 六 冬 m) 层 坊 经 元 的 个 数 用 L, 表示 ,该 层 神经 元 的 激活 函数 用 瑟 专 示 ， 
该 层 的 联接 矩阵 用 琴 人 5 表示 。 

显然 ,输入 向 量 ` 输 出 自 量 的 维 数 是 由 问题 所 直接 决定 的 ,然而 ,网 络 隐藏 层 的 层 数 和 各 个 隐 
藏 层 神经 元 的 个 数 则 是 与 问题 相关 的 。 目 前 的 研究 结果 还 难以 给 出 它们 与 问题 的 类 型 及 其 规模 
之 问 的 函数 关系 。 实 验 表明 ,增加 隐藏 层 的 层 数 和 隐藏 层 神经 元 的 个 数 不 一 定 能 够 提高 网 络 的 
精度 和 表达 能 力 ,在 多 数 情 况 下 ,BP 网 一 般 都 选用 一 级 网 络 。 


4.2.2 训练 过 程 祈 述 


首先 ,前 商 我 们 已 经 提 到 过 ,人 工 神经 网 络 的 训练 过 程 是 根据 样本 集 对 神经 元 之 间 的 联接 仅 
进行 调整 的 过 程 ,BP 网 络 也 不 例外 。 其 次 ,BP 网 络 执行 的 是 有 导师 训练 。 所 以 ,其 样本 集 是 由 
形 如 : 

(输入 向 曹 , 理 想 输出 向 量 》 
的 向量 对 构成 的 。 折 有 这 些 向 量 对 ,都 应 该 是 来 源 于 网 络 即将 模拟 的 系统 的 实际 "运行 "结果 。 
它们 可 以 是 从 实际 运行 系统 中 采集 来 的 。 

在 开始 训练 前 ,所 有 的 权 都 应 该 用 一 些 不 朵 的 小 随机 数 进行 初始 化 。“ 小 随机 数 "用 来 保证 
网 络 不 会 因为 权 过 大 而 进 人 饱和 状态 ,从 而 导致 训练 失败 ;不 网 "用 来 保证 网 络 可 以 正常 地 学 
习 。 实 际 上 ,如 果 用 相册 的 数 去 初始 化 权 和 拖 阵 , 则 拘 络 将 无 能 力学 习 。 

8BP 算法 主要 包含 4 步 ,这 4 步 被 分 为 两 个 阶段 ， 

1 向 前 传播 阶段 

《1) 从 样本 集中 取 一 个 样本 (Xo ,8 ) ,将 输入 网 络 ; 

(2) 计算 相应 的 实际 输出 Oo 。 

在 此 阶段 ,信息 从 输入 层 经 过 逐 级 的 变换 ,传送 到 输出 层 。 这 个 过 程 也 是 网 络 在 完成 训练 后 
正常 运行 时 执行 的 过 程 。 在 此 过 程 中 ,网 络 要 答 的 是 下 列 运算 ， 








下， 


Op = 玉 ( (EPE 和 了 腥 人 7) 了 全 ) 了 介 号 
2. 向 后 传播 阶段 
(6 计算 实际 输出 O, 与 相应 的 理想 输出 85 的 卷 ; 
(2) 按 极 小 化 误差 的 方式 调整 权 惩 阵 ， 
这 两 个 阶段 的 工作 一 般 应 受 色 精度 要 求 的 控制 ,在 这 里 , 取 
1 AN 


一 本 (op op 4 一 2 
作为 网 络 关于 第 户 个 样本 的 误差 测度 。 而 将 网 络 关于 整个 样本 集 的 误差 测度 定义 为 
瑟 = > 已 4-3 


如 前 记述, 之 所 以 将 此 阶段 称 为 向 后 传播 阶段 ,是 对 应 于 输 人 信号 的 正常 传播 而 言 的 。 因 为 
在 并 始 调整 神经 元 的 联接 权时 ,只 能 求 出 输出 层 的 误 莽 ,而 其 他 层 的 误差 要 通过 此 误差 反 向 逐 层 
后 惟 才能 竺 到 。 朋 时候 也 称 之 为 误差 传播 阶段 。 


4.2.3 误差 传播 分 析 


1. 输出 层 权 的 调整 
为 了 说 明 清晰 方便 ,我 们 使 用 图 4 ~ 3 中 的 相应 符号 来 讨论 输出 层 联接 权 的 调整 。 

















Hg 
口 -一 一 口 
4 7 
第 %-1 层 第 " 层 


图 4-3 ANs 到 anN, 的 联接 


图 中 ,AN 是 输出 层 的 第 4 个 神经 元 ,wm 是 从 其 前 导 度 的 第 请 个 神经 元 到 AN, 的 联接 权 。 取 





apg 二 2 十 六 mm 4 一 4 
根据 第 2 章 给 出 的 Delta 规则 ( 式 2-20), 有 
Aropm = a6oop 引 一 5 
由 于 在 本 书 中 不 再 区 分 神经 元 的 激活 状态 和 输出 值 ,所 以 上 式 中 的 8 的 计算 按 下 式 进行 : 
六 = 太 (netj(m -oo) 4-6 
而 
(net) = ofi-o) 
所 以 
Aram = 邮 0y 
= as(zet)(y ~ oojov 
= so(1 一 oo 人 (w -由 )0p 
即 


Arem = aor(1 -mm)(y -oojoy 4- 了 7 


85 可 以 看 成 是 AN 所 表现 出 来 的 误差 。 它 由 ANN, 的 输出 值 和 AN, 的 理想 输出 值 以 及 与 ww 直 
接 相关 联 的 AN 的 输出 值 确定 。 

2. 隐藏 晨 权 的 调整 

对 隐藏 层 权 的 调整 ,仍然 可 以 采用 式 4 - 4\4 - 5, 只 不 过 在 这 里 不 再 可 以 用 式 4- 6 去 计算 
相应 的 神经 元 所 表现 出 来 的 误差 ,因为 此 时 无 法 知道 该 神经 元 的 理想 输出 。 为 了 解决 这 个 问题 ， 
在 这 里 先 从 直观 上 来 研究 如 何 计算 相应 的 神经 元 所 表现 出 来 的 误差 ,相应 的 理论 推导 将 留 在 4. 
6 节 给 出 。 

为 使 讨论 更 清晰 ,对 隐藏 层 联接 权 调整 的 讨论 将 参考 图 4 - 4 进行 。 按 照 该 图 的 表示 ,省 去 
了 其 中 有 些 符 号 上 表示 网 络 层 号 的 上 标 。 一 方面 ,将 相应 的 层 号 标注 在 图 的 下 方 。 另 一 方面 , 仅 
在 需要 的 地 方 广 层 号 以 下 标的 形式 出 现 。 



































第 4-2 居 第 4-f 层 第 上 层 


图 4-4 误差 反 向 传播 示意 图 


很 定 图 4-4 中 的 wsiyzppa,…ymm 的 调整 已 经 完成 。 所 以 ,此 时 8 ,82x，…6u 的 值 是 已 
知 的 。 要 想 调 整 wp ,就 必须 知道 3u -1(, 由 于 AN 的 理想 输出 是 未 知 的 ,所 以 ,必须 按照 一 乍 的 
方法 来 给 各 -1! 一 个 合适 的 估计 。 

从 图 中 可 以 看 出 ,3wx ;的 值 应 该 是 和 Si 832，…, 8 有关 的 ,在 9ik，8at ,yb 等 每 个 值 
中 ,都 含有 Sm 1 的 “成 分 "。 因 此 ,自然 地 想到 用 Si , 82 ，…,3mt 来 估计 3u_;。 同 时 ,3 1 又 是 
通过 mm yw ytpm 与 Be，85，…8m 关 联 的 。 具 体 地 ,不 妨 认为 Bu li: 

通过 权 oo 对 人 向 出 贡献 ， 

通过 权 xpz 对 382 做 出 贡献 ， 

和 通过 权 wm 对 8 做 出 贡献 。 

从 而 ,AN, 的 输出 误差 是 与 
top1616 十 Up282 十 十 mpmBnk 
相关 的 。 这 样 ,可 以 用 它 近 似 地 表示 AIN, 的 理想 输出 与 实际 输出 的 差 。 根 据 式 4- 6 得到， 
3 = CaetpsJ(toplois + mp282 十 二 tpmant) 4-8 
从 而 有 : 
- 相 


ADpip 只 -io 、 
= net + pp26ss 和 十 tomBa] ouk-2 
= oope-11- om (mb tr ren28st + ron3or)ou 2 
即 ; 
Anppip = op HL oh Ce + raBos 1 十 pm)on 2 呈 一 息 
jp 二 全 4-10 


式 中 ,on -tsow :分别 表 示 第 上 -1 层 的 第 户 个 神经 元 ,第 炎 - 2 层 的 第 A 个 坤 经 元 的 输出 。 
4.2.4 基本 的 BP 莫 法 


知识 的 分 布 表 朱 原理 指出 ,由 于 知识 是 分 布 雪 示 的 ,所 以 人 工 神 经 网 络 可 以 在 实际 应 用 中 根 
据 不 断 著 取 的 经 验 米 增加 自己 的 处 理 能 力 。 因 此 , 它 的 学 习 可 以 不 是 一 次 完成 的 。 也 就 是 说 ,人 
工 神经 网 络 应 该 可 以 在 工作 过 程 中 道 过 对 新 样本 的 学 习 曾 获得 新 的 知识 ,以 不 断 丰 富 自己 的 知 
识 。 这 就 要 求 在 一 定 的 范围 内 ,网 络 在 学 会 新 知识 的 同时 ,保持 原来 学 会 的 东西 不 被 忘记 。 这 个 
特性 被 称 为 可 塑性 。 
然而 ,BP 网 络 并 不 具有 这 种 可 盟 性 。 它 要 求 用 户 一 开始 就 要 将 所 有 要 学 的 样本 一 次 性 地 交 
给 它 ,而 不 是 “学 会 "一 个 以 后 ,再 学 其 他 的 。 这 就 要 求 我 们 不 能 在 完成 一 个 样本 的 训练 后 才 进 行 
下 一 个 样本 的 训练 。 所 以 ,训练 算法 的 最 外 层 循环 应 该 是 "精度 要 求 ", 其 次 才 是 对 样本 集中 的 样 
本 进行 循环 。 也 就 是 ,在 BP 网 络 针 对 一 个 样本 对 各 个 刁 接 权 作 一 次 调整 后 ,虽然 此 样本 还 不 能 
满足 精 岩 要 求 , 此 时 也 不 能 继续 按 此 样本 进行 济 练 ,而 应 考虑 其 他 的 样本 , 待 样本 集中 的 所 有 的 
样本 都 被 考虑 过 一 遍 后 ,再 重复 这 个 过 程 , 直 到 网 络 能 同时 满足 各 个 样本 的 要 求 。 
具体 做 法 是 ,对 样本 集 
8 = 人 大，Y) (和 Ye (和 YY) 

网 络 根据 (Xi ，Z)) 计 算出 实际 输出 9, 和 误差 测度 巴 , 对 多 (0， 印 @)，， W(OD 各 做 一 次 调整 ; 
在 此 基础 上 ,再 根据 ( Xa, Y:) 计 算出 实际 输出 0, 和 误 莽 测度 ,对 印 0， 印 2 W(0 分 别 
做 第 一 次 调整 …… 如 此 下 去 。 本 次 循环 最 后 再 根据 (X,,Y,) 计 算出 实际 输出 0, 和 误差 测度 E,， 
对 多 10 , 铬 ,有 ( 分 别 敌 第 * 次 调整 。 这 个 过 程 ,相当 于 是 对 样本 集中 各 个 样本 的 一 次 和 
环 处 理 ， 这 个 氏 环 需要 重复 下 去 ,直到 对 整个 样本 集 来 说 ,误差 测度 的 总 和 满足 系统 的 要 求 为 
赴 , 即 : 





























忆 忆 <e 
这 里 ,e 为 精度 控制 参数 。 按 照 这 处 再 思想 ,可 以 得 出 下 列 基本 的 BP 算法 : 


算法 4-1 基本 BP 算 法 
1 forh=ltoMdo 
11 初始 化 厂 全; 

2 初始 化 精度 控制 参数 s， 


和 


3 正二 E+1l 
4 _ while 五 >e do 

4.1 王 =10: 

4.2 对 $ 中 的 每 一 个 样本 ( 导 ，Y) 
4.2.1 计算 出 刀 , 对 应 的 实际 输出 0,; 
4.2.2 计算 出 五 
4.2.3 已 = 忆 + 已 ; 

4.2.4 根据 式 4- 4.4-7 了 调整 古 20， 

4.2.5 = 人 -1 

4.2.6 while 大 夭 0 do 
4.2.6.1 根据 式 4-9.4- 10 调整 太 必 ; 
4.2.6.2 丰 = 良 -1 

43 下 = 了 .0 


4.3 算法 的 改进 


实验 表明 ,算法 4- 1 较 好 地 抽取 了 样本 集中 所 含 的 输入 疝 量 和 输出 向 量 之 问 的 关系 .通过 
对 实验 结果 的 仔细 分 析 会 发 现 ,BP 网 络 接受 样本 的 顺序 仍然 对 训练 的 结果 有 较 大 的 影响 、 比 较 
而 宫 , 它 更 "人 秽 爱 " 较 后 出 现 的 样本 :如 果 每 次 循环 都 按照 (已 ，Y)) (下 ,TY2)，…( 瑟 ，P) 所 给 定 
的 顺序 进行 训练 ,在 网 络 " 学 成 " 授 入 运行 后 ,对 于 与 该 样本 序列 较 后 的 样本 较 接近 的 输入 ,网 络 
所 给 出 的 输出 的 精度 将 明显 高 于 与 样本 序列 较 前 的 样本 较 接 近 的 输入 对 应 的 输出 的 精度 。 那 
么 ,是 否 可 以 根据 样本 集 的 具体 情况 ,给 样本 集中 的 样本 安排 一 个 适当 的 顺序 ,以 求 达到 基本 消 
除 样本 顺序 的 影响 ,获得 更 好 的 学 习 效果 昵 ?这 是 非常 困难 的 。 因 为 无 论 我 们 如 何 排列 这 些 样 
本 , 它 终归 要 有 一 个 顺序 ,序列 排 得 好 ,顺序 的 影响 只 会 稍微 小 一 些 。 另 外 ,要 想 给 样本 数据 排 定 
-个 顺序 ,本 来 就 不 是 一 件 容易 的 事情 ,再 加 上 要 考 宛 网 络 本 身 的 因素 ,就 更 困难 了 。 

样本 顺序 对 结果 的 影响 的 原因 是 什么 呢 ? 深入 分 析 算 法 4 - 工 可 以 发 现 ,造成 样本 顺序 对 结 
果 产 生 严 重 影响 的 原因 是 :算法 对 研 介 ,人 2 ,你 ( 避 的 调整 是 分 别 依 次 根据 (Xi， Yi ),(X2， 
TY (和 ,7,) 完 成 的 。" 分 别 > "依次 "决定 了 网 络 对 “后 来 者 "的 “偏爱 "， 实 际 上 ,按照 这 种 
方法 进行 训练 ,有 时 甚至 会 引起 训练 过 程 的 严重 抖动 ,更 严重 的 , 它 可 能 使 网 络 难以 达到 用 户 要 
求 的 训练 精度 。 这 是 因为 排 在 较 前 的 样本 对 网 络 的 部 分 影响 被 排 在 较 后 的 样本 的 影响 掩 益 掉 
了 .从 而 使 排 在 较 后 的 样本 对 最 终结 果 的 影响 就 要 比 排 在 较 前 的 样本 的 影响 大 。 这 又 一 次 南明， 
虽然 知识 的 分 布 表示 原理 告诉 我 们 ,信息 的 局 部 破坏 不 会 对 原 信息 产生 致命 的 影响 ,但 是 这 个 被 
允许 的 破坏 是 非常 有 限 的 。 此 外 ,算法 在 根据 后 来 的 样本 修改 网 络 的 联接 匈 阵 时 ,进行 的 是 全 面 
的 修改 ,这 使 得 "信息 的 破坏 "也 变 得 不 再 是 局 部 的 。 这 正 是 BP 网 络 在 届 到 新 内 容 时 ,必须 重新 
对 整个 样本 集 进行 学 习 的 主要 原因 。 











虽然 在 精度 要 求 不 高 的 情况 下 ,顺序 的 影响 有 时 是 可 以 忽 路 的 ,但 是 我 们 还 是 应 该 尽量 地 消 
除 它 。 那 么 ,如 何 消除 样 本 顺序 对 结果 的 影响 呢 ? 根据 上 述 分 析 , 算 法 应 该 避免 "分别 "“ 依 次 ” 
的 出 现 。 因 此 ,我们 不 崩 * 分 别 "“ 芒 次 "根据 ( YY (对 克昌, 人 
Wo 进行 调整 ,前 是 用 (各 7， (NE Yaz) (7Y) 的 “ 闪 效 果 " 去 实施 对 厂 省 ，Wy 呈 ， 
用 人) 的 修改 。 这 就 可 以 较 好 地 将 对 样本 集 的 样本 的 一 系列 学 习 变 成 对 整个 样本 集 的 学 习 。 
获取 样本 集 " 总 效果 "的 最 简单 的 办 法 是 取 

AAA 的 = 了 Aba 的 4-11 
其 中 的 、) 表示 对 整个 样本 集 的 求 和 ,Am 多 代表 联接 权 凡 的 关于 样本 (X, ,yn ) 的 阅 整 量 ， 从 
而 得 到 算法 4- 2。 


算法 4- 2 消除 样本 是 序 影响 的 BP 算法 
1 forp = ltoMdo 
1.1 初始 化 页 (9 
2 初始 化 精度 控制 参数 e; 
下 = e+ 
4 while 下 >>8 do 
4.1 E = 0; 
4.2 对 所 有 的 守 Ai:Am 人 的 =0; 
4.3 对 有 中 的 每 一 个 样本 ( 导 ,Vs) : 
4.3.1 计算 出 忆 对 应 的 实际 输出 Du; 
4.3.2 计算 出 已 ; 
4.3.3 一 忆 + Pi 
4.3.4 对 所 有 的 ij) 根据 式 4-7 计 算 Ang 
4.3.5 对 所 有 的 ij:Au 多 = Ag +Anofgo0i 
4.3.6 = M-D 
4.3.7 while A 关 0 do 
4.3.7.1 对 所 有 的 ii 根据 式 4- 9 计算 Au 的 ， 
4.3.7.2 对 所 有 的 站:Az 的 一 Am 的 十 Ap 人 
4.3.7.3 下 = 有 -1 
4.4 对 所 有 的 让 :全 三 训 的 十 和 丰 的 1 
4.5 二 = EL2.0 


os 


上 述 算 法 较 好 地 解决 了 因 样本 的 顺序 引 超 的 精度 问题 和 训练 的 封 动 问题 。 但 是 ,该 算法 的 

收敛 速度 还 是 比较 慢 的 。 为 了 解决 收敛 速度 问题 ,人 们 也 对 算法 进行 了 适当 的 改造 。 例 如 :给 等 

-个 神经 元 增加 一 个 偏 移 量 来 加 快 收敛 速度 ;直接 在 激活 函数 上 加 一 个 位 移 使 其 避免 因 获得 0 
.4 ， 


输出 而 使 相应 的 联接 权 失 去 获得 训练 的 机 会 ;联接 权 的 本 次 修改 要 考虑 上 次 修改 的 影响 ,以 减少 
抖动 问题 。Rumelhart 等 人 1986 年 提出 的 考虑 上 次 修改 的 影响 的 公式 为 ， 
Ar = oo 上 At 
其 中 心 加 ”为 上 一 次 的 修改 量 ,8 为 冲 量 系数 ,一 般 可 取 到 0.9。1987 年 ,Sejnowski 与 Rosenberg 
给 出 了 基于 指数 平滑 的 方法 . 它 对 某 些 问题 是 非常 有 效 的 : 
aaeg = af(1 -全 Bo pas ) 4…13 
其 中 ,w5 也 是 上 一 次 的 修改 量 ,8 在 0 和 1 之 间 取 值 。 


4.4 算法 的 实现 


4.2.1 的 “网 络 的 折 扑 结构 "一 段 曾经 提 到 ,要 瑚 清楚 BP 网 络 , 只 需要 考察 二 级 网 就 可 以 了 。 
而 且 , 企 绝 大 多 数 应 用 中 选用 的 都 是 二 级 BP 网 络 。 因 弟 ,本 节 以 典型 的 二 级 BP 网 为 例 , 介 绍 它 
的 实现 。 

设 输 和 向量 是 = 维 的 ,输出 向 量 是 m 维 的 ,隐藏 居 有 刀 个 神经 苑 ,样本 集 含有 * 个 伴 本 。 
本 着 层 和 输出 层 的 神经 元 的 激活 画 数 分 别 为 Fl .F:。 算 法 的 主要 数据 结构 如 下 ， 








印 [mm] 一 一 输出 层 的 权 甜 阵 ; 
Y[” ,本 ] 一 一 输入 (隐藏 ) 的 权 和 矩阵 ， 
A,[m] 一 一 输出 层 各 联接 权 的 修改 量 组 成 的 向 量 ; 


Ax[ 五 ] 一 一 降 藏 层 各 联接 权 的 修改 量 组 成 的 向 量 ; 
OH 一- 隐藏 层 的 输出 向 量 ; 
0 一 一 输出 层 的 输出 向 基 ; 
(天 ,了 ) 一 一 一 个 样本 。 
算法 的 主要 实现 步骤 如 下 : 
1 用 不 同 的 小 伪 随 机 数 初始 化 W .Vi 
2 初始 化 精度 控制 参数 。 ,学习 率 
3 和 柑 环 控制 参数 下 = s。 + 1; 和 环 最 大 次 数 M ;循环 次 数控 制 参数 N = 0 
4 while 王 >e 攻 N<Mdo 
4.1 N=N+lR=0: 
4.2 对 每 一 个 样本 (X,Y) ,执行 如 下 操作 ， 
4.2.1 计算 :01= FOXV)02= 已 (O0 卫 ); 
4.2.2 计算 输出 层 的 权 修改 量 : for i = 1 to 天 
42.2.1 Ai = (00iDOY[]-0:[ 门 ); 
4.2.3 计算 输出 误差 :fori = 1 tp 兽 
42.3.1 瑟 = 忆 + -oO 
4.2.4 计算 隐藏 层 的 权 修 改 量 :fori = 1 to 本 
.47 ， 


4.2.4.1 工 = 小 
4.2.4.2 forj = 1to 见 
Z =X+ 肌 是 门 Xa 门 
4.2.4.3 ae 站 2 
4.2.5 修改 输出 居 权 抑 阵 :for 1t 末 攻 让 = Tto 册 
站 .2.5.1 于 | 用 站 = 有 [ 攻 +aOiLRA[， 
4.2.6 修改 隐藏 层 权 抢 阵 :for& = 1tom 用 1 > 1 也 
42.6.1 = 在 [R 门 +aOf Ah 3 


建议 读者 在 做 实验 时 ,可 以 将 隐 含 层 的 神经 元 的 个 数 囊 作 为 一 个 输入 参数 ,实验 一 下 ,对 问 
一 个 问题 (相同 的 样本 集 ) ,看 在 让 茂 层 中 用 多 少 个 神经 元 能 够 得 到 最 好 的 效果 。 同 样 , 也 可 以 同 
时 将 。\ 循 环 最 大 次 数 M 等 作为 算法 的 输入 参数 。 另 一 个 建议 是 ,在 网 络 的 调试 阶段 ,在 最 外 居 
循环 内 加 一 层 控 制 ,让 系统 在 每 循环 若干 次 后 ,将 误差 测 度 . 权 称 阵 输出 ,以便 使 调试 者 可 以 了 解 
到 训练 的 实际 进程 ,也 可 在 训练 不 收 伊 时 及 时 地 停止 算法 ,以 尽 录 地 进行 调整 。 这 里 所 说 的 畔 糙 
主要 呈 指 对 权 托 阵 多 ,Y 的 初 值 的 调整 。 因 为 不 同 的 初 值 可 能 会 导致 网 络 陷 人 局 部 极 小 点 .和 
一 旦 陷 人 了 局 部 极 小 点 ,网 络 就 很 难 达到 系统 的 精度 要 求 。 

另外 ,上 述 是 对 算法 4- 1 的 实现 ,读者 可 以 对 此 实现 进行 适当 的 修改 来 实现 算法 4- 2。 


4.5 算法 的 理论 基础 


卫 算 法 有 很 强 的 理论 基础 。 算 法 对 网 络 的 训练 被 看 成 是 在 一 个 高 维 空间 中 寻找 一 个 多 苑 
散 数 的 极 小 点 。 事 实 上 ,我 们 不 妨 设 网 络 含有 M 层 ,各 层 的 联接 矩阵 分 别 为 : 


厂 昌 ， 研 加 ， 厂 0) 4 -14 
如 果 第 天 层 的 神经 元 有 了 瑟 个 , 则 网 络 被 看 成 一 个 含有 
姑 X 甩 + 再 |X 有 + 月 X 甩 + 十 丽 WX 隐 4-15 


个 白 变 量 的 系统 。 该 系统 将 针对 样本 集 ; 
8 = (生生 

进行 训练 。 我 们 取 网 络 的 误差 测度 为 该 网 络 相对 于 样本 集中 所 有 样本 的 误差 测度 的 总 和 : 

五 = 六 En 4 一 106 

1 

式 中 F4O 为 网 络 关于 样本 (X，，Y， ) 的 误差 测度 。 由 上 式 可 知 ,如 果 对 任意 的 

(YES 
我 们 均 能 使 2 最 小 , 则 就 可 使 下 最 小 。 因 此 ,为 了 后 而 的 叙述 简洁 ,我 们 用 us 代表 io 信 , 用 
men 表示 相应 的 神经 元 AN 的 网 络 输 入 ,用 下 代表 互 ( ,用 (下 , 思 代表 (Xs ,yy) ,其 中 


着 = (zzarszn 


TY = (33 
该 样本 对 应 的 实际 输出 为 ; 
0 = (ooevon) 
我 们 用 理想 输出 与 实际 输出 的 方差 作为 相应 的 误差 测度 : 





E = 于 Oo 4- 17 
行 
按照 最 速 下 降 法 ,要 求 下 的 极 小 点 ,点 该 有 : 
Are cc- 莽 4-18 


这 因 为 . 三 为 下 美 于 toy 的 增长 率 ,为 了 便 误 差 磊 小 ,所 以 取 As 与 它 的 负 值 成 正比 。 图 4 - 
5 为 相应 的 示意 图 。 


图 4-5(8) 中 , 当 ? 本 >0 时 ,系统 当前 所 处 的 位 置 在 极 小 点 的 右 伍 , 所 以 ,as 的 值 应 该 减 


小 .故此 时 Auw <0 成 立 。 狗 4- 5(b) 表示 相反 的 情况 ,此 时 3 上 <0, 系 统 当前 所 处 的 位 置 在 要 
小 点 的 左 便 ,所 以 wy 的 值 应 该 增 大 ,故此 时 Aws > 成立， 
注意 到 式 4 - 17, 需 要 变换 出 王 相对 于 该 式 中 网 络 此 九 的 实际 输出 的 关系 ,因此 ， 
FE FE。 9ief， 














5 4 
而 其 中 的 
neti 二 uak 
4 
所 以 
1 
了 下 
Met (2 sm] 
= 一 上 4-20 
8 9 
瑟 天 
全 
3 时 sw 有 卫 | 
全 下 此 时 Aw<0 他 0 此 时 Ar20 


网 4-$ Arey 与 的 关系 示意 图 


将 式 4-20 代 入 式 4-19, 可 以 得 到 : 














日 va 6 9 
a 人 
3aE (2euod 
maeti tt 
-= -9E . 
3 
全 
已 
= 一 4 -21 
1 
根据 式 4- 18, 可 以 得 到 ， 
Aroj = um 4- 22 


其 中 ,为 比例 系数 ,在 这 里 为 学 习 率 。 

下 面 的 问题 是 求 4- 21。 显 然 , 当 ANi 是 网 络 输出 层 的 神经 元 时 ,zez; 与 马 的 函数 关系 比较 
直接 ,从 而 相应 的 计算 比较 简单 。 但 是 , 当 AN; 是 隐藏 层 的 神经 元 时 ,ner; 与 的 函数 关系 就 不 
是 直接 的 关系 ,相应 的 计算 就 比较 复杂 了 。 所 以 ,需要 按照 AN; 是 输出 层 的 神经 元 和 隐藏 层 的 
神经 元 分 别 进行 处 理 。 

1. AN 为 输出 层 神经 元 

当 AN 为 输出 层 神经 元 时 ,注意 到 。 





9 = Fnen) 
容易 得 到 
oa 
一 一 
5 = (nen) 4 一 23 
从 而 
_ .3 
六 = pe 
-_- 引 ,3o 
90， aneb 
-_%E. 
一 和 (nen) 


在 注意 到 式 4- 17 


红 - 

3oj 3o 
8 和 0 
本 9o 


和 


所 以 


久 = (人 -oaen) 4- 24 
故 , 当 AN; 为 输出 层 的 神经 元 时 , 它 对 应 的 联接 权 as 应 该 按照 下 列 公 式 进 行 调整 : 
二 00 
二 2 aregj 一 )o 4 一 25 


2.， AN 为 隐藏 屋 神 经 元 

当 AN 为 隐藏 层 神经 元 的 时 候 , 式 4- 21 中 的 ne 及 其 对 应 的 wm(- 广 (ne5 )) 在 三 中 是 不 
直接 出 现 的 ,所 以 ,这 个 候 导 数 不 能 直接 求 ,必须 进行 适当 的 变换 。 由 于 ne 基 隐 藏 层 的 ,而 式 
中 下 含 的 是 输出 层 的 神经 元 的 输出 ,所 以 考虑 将 * 信 号 "向 网 络 的 输出 方向 “推进 ”一步 ,使 之 与 
waen) 相关 ， 





四 
niet 
En 
50 3 
由 于 ,o = 大?zeb 刀 所 以 
日 
er = 大 (net) 
从 而 有 
-中 户 (neb) 4-26 
注意 到 式 4- 17 
- 工 》(，_ 
二 2 ; 1 ob) 


中 的 os 是 它 的 所 有 前 导 层 的 所 有 神经 元 的 输出 o 的 函数 。 当 前 的 w 通过 它 的 直接 后 继 层 的 各 
个 神经 元 的 输出 夫 影 响 下 一 层 各 个 神经 元 的 输出 ,最终 影响 到 式 4- 17 中 的 om。 而 月 前 只 用 考 
虐 将 oj 送 到 它 的 直接 后 继 层 的 各 个 神经 元 。 不 妨 假定 当前 层 (神经 元 AN; 所 在 的 层 ) 的 后 继 层 
为 第 六 层 ,该 层 各 个 神经 元 AN 的 网 络 输入 为 


所 








ez 二 妆 到 本 4 一 27 
所 以 ,下 对 的 入 导 可 以 转换 成 如 下 形式 ， 
3E 局 1 3 ape 
和 NE ， 2 4 站 
再 由 式 4- 27, 可 得 
下 
ae 3f 之 raol) 





5 4 239 


将 式 4-29 代 入 式 4-28, 可 得 


饼 


3 `( 班 ?ae | 











50 所 net ao 
外 
SEE 】 
= 、 人 了 4 -30 


与 式 4- 21 中 的 met 相 比 , 式 4- 30 中 的 met 为 较 后 一 层 的 神经 元 的 网 络 输入 。 所 以 , 按 
照 我 们 遵从 的 Ares 的 计算 是 从 输出 层 开始 , 逐 层 向 输入 晨 推进 的 顺序 , 当 要 计算 AN, 所 在 层 的 
9 








联接 权 的 修改 量 时 ,神经 元 AN, 所 在 居 的 丸 已 经 被 计算 出 来 。 而 2 = - 5, 即 蕊 4 30 中 的 
2E_ 就 是 -六 。 从 而 
人 Pet 
范 -- pm 4 -3 
将 其 代入 式 4- 26, 可 得 
9 明 
3= 50 (nen) 
及 
=-(- 定 seok) Ooeo) 
二 
妓 
六 = (2puox) roneo) 4 -32 
由 式 4- 22 
Ar = | Qi peon) 太 (neb ]o; 
故 ,对 路 藏 层 的 神经 元 的 联接 权 roi ,有 
名 
二 ae( So) (aeb)a 4-33 


4.6 几 个 问题 的 讨论 


前 面 曾经 提 到 过 ,BP 网 络 是 应 用 最 为 广泛 的 网 络 。 例 如 , 它 曾 经 被 用 于 文字 识别 、 模 式 分 
类 文字 到 声音 的 转换 、 图 像 压 缩 ,决策 支持 等 。 但 是 ,有 许多 问题 困扰 着 该 算法 。 尤 其 是 如 下 五 
个 问题 ,对 BP 网 络 有 非常 大 的 影响 ,有 的 甚至 是 非常 严重 的 。 下 面 对 这 五 个 问题 进行 简单 的 讨 
论 。 

1. 收敛 速度 问题 

8BP 算法 最 大 的 弱点 是 它 的 训练 很 难 掌握 ,所 以 在 上 节 我 们 特别 建议 读者 在 网 络 的 调试 阶段 

.52 . 























加 强 对 网 络 的 监视 。 该 算法 的 训练 速度 是 非常 慢 的 ,区 其 是 当 网 络 的 训练 达到 一 定 的 程度 后 ， 
收 仇 速度 可 能 会 下 降 到 令 人 难以 忍受 的 地 步 。 作 者 曾经 作 过 一 个 试验 ,对 一 个 输入 向 量 的 维 数 
为 4, 输 出 向 量 的 维 数 为 3, 隐 藏 层 有 7 个 神经 元 的 Bh 网 络 ,算法 在 外 层 循 环 执行 到 5 000 次 之 
前 .收敛 速 度 较 快 。 大 约 每 选 代 100 次 ,误差 可 以 下 降 0.001 左右 ,但 从 第 10 000 次 到 第 20 000 
次 选 代 ,总 的 误差 下 降 量 还 不 到 0.001。 更 严重 的 是 ,训练 有 时 是 发 散 的 。 

2. 局 部 极 小 点 问题 

从 4.5 节 知道 ,BP 算法 用 的 是 最 速 下 降 法 ,从 理论 上 看 ,其 训练 是 沿 着 误差 曲面 的 斜面 向 下 
通 近 的 。 对 一 个 复杂 的 网 络 来 说 ,其 误差 时 面 是 一 个 高 维 空间 中 的 曲面 , 它 是 非常 复杂 不 规则 
的 ,其 中 分 布 着 许多 局 部 极 小 点 。 在 网 络 的 训练 过 程 中 .…- 且 路 入 了 这 样 的 局 部 极 小 点 ,用 目前 
的 算法 是 很 难 逃 离 出 来 的 。 所 以 ,在 上 节 的 算法 实现 中 曾 提醒 读者 ,要 严密 地 监视 训练 过 程 ,一 
出 发 现 网 络 在 还 未 达到 精度 要 求 ,而 其 刘 练 难以 取得 进展 时 ,就 应 该 终止 训练 。 因 为 此 时 网 络 已 
经 陷 人 了 一 个 局 部 极 小 点 。 在 这 种 情况 下 ,可 以 起 办 法 使 它 逃 离 该 局 部 极 小 点 或 者 避 开 此 局 部 
极 小 点 。" 避 开 ”的 方法 之 一 是 修改 对 、Y 的 初 值 ,重新 对 网 络 进行 训练 。 因 为 开始 下 降 "* 位 置 
的 不 同 ,会 使 得 网 络 有 可 能 避 开 该 极 小 点 。 但 是 ,由 于 高 维 空间 中 的 曲面 是 非常 复杂 的 .所 以 , 当 
网 络 真 的 可 以 " 躲 开 "该 局 部 极 小 点 时 , 它 还 有 可 能 陷入 其 他 的 局 部 极 小 点 。 因 此 ,一般 来 讲 , 对 
局 部 极 小 点 采用 “ 躲 开 " 的 办 法 并 不 是 总 有 效 的 。 较 好 的 方法 是 当 网 络 掉 进 局 前 极 小 点 时 ,能 使 
它 近 离 该 局 部 极 小 点 ,而 向 全 局 极 小 点 继续 前 进 。 后 面 将 介绍 的 统计 方法 在 一 定 的 程度 上 可 以 
实现 这 一 功能 。 但 是 ,统计 方法 会 使 网 络 的 训练 速度 变 得 更 慢 。 

机 asserman 在 1986 年 提出 ,将 Cauehy 训练 与 BP 算法 结合 起 来 ,可 以 在 保证 训练 速度 不 被 
降低 的 情况 下 找到 全 局 极 小 点 。 

3, 网 络 刀 痰 问题 

人 在 训练 中 , 权 可 能 变 得 很 大 ,这 会 使 神经 元 的 网 络 输入 变 得 很 大 , 从 而 又 使 得 其 激活 函数 的 
导 琐 数 在 此 点 上 的 取 值 很 小 。 根 据 式 4-~5 到 4-11, 此 时 的 训练 步 长 会 变 得 非常 小 ,进而 导致 
训练 速度 降 得 非常 低 ,最 终 导致 网 络 停止 收 伍 。 这 种 现象 叫做 网 络 巍 疾 。 因 此 ,我 们 强调 ,在 对 
网 络 的 联 和 接 权 矩 阵 进 行 初始 化 时 ,要 用 不 同 的 小 伪 随 机 数 。 

4, 稳定 性 问题 

前 面 曾经 提 到 ,BP 算法 必须 将 整个 训练 集 一 次 提交 给 网 络 ,再 对 它 进行 联接 权 的 调整 , 昕 且 
最 好 使 用 算法 42, 用 整个 样本 集中 各 样本 所 要 求 的 修改 量 的 综合 实施 权 的 修改 。 这 种 做 法 虽 
然 增加 了 一 些 额 外 的 存储 要 求 ,但 却 能 获得 较 好 的 收 伍 效果 。 

显然 ,如 果 网 络 遇 到 的 是 一 个 连续 变化 的 环境 , 它 将 变 成 无 效 的 。 由 此 看 来 ,BP 网 络 难以 模 
拟 生 物 系 统 。BP 网 络 缺乏 的 这 种 可 塑 性 将 在 第 8 章 介 绍 的 ART 模型 中 得 到 解决 。 

5. 步 长 问题 

从 上 节 可 以 看 出 ,BP 网 络 的 收 和 全 是 基于 无 穷 小 的 权 修 改 量 ,而 这 个 无 穷 小 的 权 修 改 量 预 示 
郑 需 要 无 穷 的 训练 时 间 。 这 显然 是 不 行 的 。 因 此 ,必须 适当 地 控制 权 修改 量 的 天 小 。 

显然 ,如 采 步 长 太 小 , 收 全 就 非常 慢 ,如 果 步 长 太 大 ,可 能 会 导致 网 络 的 次 病 和 不 稳定 。 较 好 
的 解决 办 法 是 设计 一 个 自 适应 步 长 ,使 得 权 修 改 量 能 随 着 网 络 的 训练 而 不 断 变化 。 一 般 来 说 ,在 
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训练 的 初期 , 权 修 改 量 可 以 大 一 些 ,到 了 训练 的 后 期 , 权 修改 量 可 以 小 一 些 。1988 年 ,Wasserman 
曾经 提出 过 一 个 自 适应 步 长 算法 ,该 算法 可 以 在 训练 的 过 程 中 自动 地 调整 步 长 。 


练 习 题 


1 叙述 BP 算法 的 基本 思想 。 

2. BP 算 法 对 人 工 栅 经 网 络 技术 的 发 展 起 到 了 很 大 的 作用 , 它 得 到 了 非常 广泛 的 研究 和 应 用 。 请 你 分 析 这 
种 网络 模型 能 被 广泛 应 用 的 主要 原因 。 

3. 对 BP 网 络 的 神经 元 的 激活 函数 有 什么 特殊 要 求 ? 为 什么 ? 

4. 在 直观 上 如 何 解释 BP 网 络 在 训练 期 间 的 误差 估计 阶段 各 层 的 误 状 估 计 ? 

3, 分 析 算 法 4 一 1 的 第 4 步 , 求 该 步 被 执行 一 次 所 需 完成 的 涵 法 和 加 淡 备 多 少 次 。 

6. 分 析 算 法 4 一 2, 指 出 该 算法 是 如 何 消除 样本 顺序 对 结果 的 影响 的 。 你 认为 ,如果 一 个 BP 网 络 在 完成 训 
练 后 ,又 允 到 一 个 新 的 样本 ,是 否 可 以 直接 用 这 个 样本 对 BRP 网 络 进行 “附加 训练 "” 请 解释 你 给 出 的 答案 。 

7. 请 自行 选择 一 个 实例 实现 算法 4 一 2。 

8. 对 你 在 4- 7 中 实现 的 算法 ,调整 隐藏 层 神经 元 的 个 数 ,观察 隐藏 层 神经 元 的 个 数 对 网 络 训练 的 收效 速度 
和 网 络 的 计算 精度 的 影响 。 、 

9. 修改 策 法 4 ~ 2, 使 它 能 够 按照 式 4- 12 调整 re 。 

10、 莘 述 困扰 BP 算法 的 几 个 问题 。 
1. 你 是 否 能 找到 一 种 解决 四 扰 BP 网 络 的 局 部 极 小 点 的 方法 ? 
2. 对 BF 网 络 的 性 能 进行 分 析 , 指 出 它 将 适应 哪些 方面 的 应 用 . 
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第 五 章 对 伟 网 





BP 网 作为 第 一 个 性 能 较 好 的 多 级 网 络 被 PDP 小 组 的 研究 者 们 在 1986 年 重新 提出 并 引起 
世人 的 广泛 关注 后 , Robert Hecht - Nielson 在 1987 年 提出 了 对 传 网 (Counterpropagation 
Networks, 简 记 为 CPN)。 与 BP 网 相 比 ,CPN 的 训练 速度 要 快 很 多 ,所 需 的 时 间 大 约 是 BP 网 所 
需 时 间 的 1% 。 查 是 , 它 的 应 表面 却 网 络 的 性 能 而 比较 窗 。 

从 网 络 的 拓扑 结构 来 看 ,CPN 与 BP 网 类 似 ,CPN 是 一 个 两 层 的 神经 网 络 , 只 不 过 这 两 层 执 
行 的 训练 算法 是 不 同 的 。 所 以 ,CPN 是 一 个 蜡 构 网 。 与 同 构 网 相 比 ,网 络 的 异 构 性 使 它 更 接近 
于 人 脑 。 因 为 研究 表明 ,在 人 脑 中 确实 存在 有 各 种 特殊 的 模块 ,它们 下 来 完成 不 同 的 运算 。 例 
如 ,在 听觉 通 道 的 每 一 层 ,其 神经 元 与 神经 纤维 在 结构 上 的 排列 与 频率 的 关系 十 分 密切 ,对 某 一 
些 频率 ,其 中 某 些 相应 的 神经 元 会 获得 最 大 的 响应 。 这 种 听觉 通道 上 的 神经 元 的 有 序 排 列 一 直 
延续 到 听 沉 皮层。 尽管 许多 低层 次 上 的 神经 元 是 预先 排列 好 的 ,但 高 层次 上 的 神经 元 的 级 织 则 
是 通过 学 习 自 组 织 形成 的 。 

在 Robert Hecht- Nielson 提出 的 CPN 中 ,神经 元 被 分 布 于 两 层 , 它 们 分 别 执行 较 早 些 时 候 
出 现 的 两 个 著名 算法 :Kohonen 1981 年 提出 的 自 组 织 贞 射 (Self - organization map, 简 记 为 SDM) 
和 Grossberg 1969 年 提出 的 散射 星 (Outstar)。 估 们 将 执行 自 组 织 映 射 的 层 称 为 Kohonen 层 , 执 
行 散 射 洗 算法 的 层 则 被 称 为 Srossberg 层 。 按 这 种 方法 将 这 两 种 算法 组 合 在 一 起 后 所 获 待 的 网 
络 ,不仅 提 供 了 一 种 设计 多 级 网 训练 算法 的 思路 ,解决 了 多 级 网 络 的 训练 问题 , 突破 了 单 级 网 
限制 ,而 且 还 使 得 网 络 具 有 了 许多 新 的 特点 。 如 前 所 述 ,多 级 网 络 的 训练 问题 主 区 是 在 解决 隐 
层 神 经 元 相应 的 联接 权 调 整 时 ,需要 通过 隐藏 层 神 经 元 的 理想 输出 来 实现 相关 误差 的 估计 。 
演 , 它 们 对 应 的 理想 输出 又 是 未 知 的 。 我 们 知道 ,在 无 导师 训练 中 是 不 需要 知道 理想 输出 的 ， 
此 可 以 考虑 让 网 络 的 隐藏 层 执行 无 导师 学 习 。 这 是 解决 多 级 网 络 训练 的 另 一 个 思路 。 实 际 上 ， 
CPN 就 是 将 无 导师 训练 算法 与 有 导师 训练 算法 结 人 台 在 一 起 ,用 无 导师 训练 解决 网 络 隐藏 层 的 理 
想 输 出 未 知 的 问题 ,用 有 导师 训练 解决 输出 层 按 系统 的 要 求 给 出 指定 的 输出 结果 的 问题 。 

Kohonen 提出 的 自 组 织 有 映 射 由 四 部 分 组 成 ,包括 一 个 神经 元 阵列 (用 它 构 成 CPN 的 
Kohonen 层 ) ,一 种 比较 选择 机 制 , 一 个 局 部 互联 ,一 个 自 适应 过 程 。 实 际 上 ,这 一 姑 将 实现 对 答 
人 进行 分 类 的 功能 。 所 以 ,该 屋 可 以 执行 无 导师 的 学 习 , 以 完成 对 样本 集中 所 含 的 分 类 信息 的 提 
取 。 

{jrossberg 层 主要 用 来 实现 类 表示 。 由 于 相应 的 类 应 该 是 用 户 所 要 求 的 ,所 以 ,对 应 每 一 个 
输入 向 量 ,用 户 明确 地 知道 它 对 应 的 理想 输出 向 量 , 故 ,该 层 将 执行 有 导师 的 训练 。 

两 层 的 有 机 结合 ,就 构成 了 一 个 映射 系统 。 所 以 ,有 人 将 CPN 看 成 一 个 有 能 力 进行 一 定 的 
推广 的 查找 表 (Leok ~ up table)。 它 的 训练 过 程 就 是 将 输入 向 量 与 相应 的 输出 向 量 对 应 起 来 。 
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这 些 阿 节 可 以 是 二 值 的 .也 可 以 是 连续 的 。-- 旦 网 络 完成 了 训练 ,对 … 个 给 定 的 输入 就 可 以 给 出 
一 个 对 应 的 输出 。 网 络 的 推广 能 力 表明 , 当 网 络 遇 到 一 个 不 太 帘 整 的 .或 者 是 不 完全 正确 的 输入 
时 ,只 要 该 "噪音 "是 在 有 限 的 范围 内 ,CPN 都 可 以 产生 -个 正 靖 的 输出 。 这 是 内 为 Kohonen 层 
可 以 找到 这 个 含有 陈 音 的 输入 应 该 属于 的 分 类 ,而 对 应 的 Grossberg 层 则 可 以 给 出 该 分 类 的 表 
示 。 从 整个 网 络 来 看 ,就 表现 出 一 种 排 广 能 力 。 这 使 得 网 络 在 模式 识别 ,模式 完善 .信号 加 强 等 
方面 可 以 有 较 好 的 应 用 。 

另外 ,上 述 映 射 的 道 映 射 如 果 存 在 的 话 ,可 以 通过 对 此 网 的 简单 扩展 , 米 实 现 相应 的 逆 变 换 。 
这 被 称 为 全 对 传阅 。 

本 章 将 介绍 CPN 的 网 络 结构 ,Kohonen 层 与 Grossberg 层 的 正常 运行 ,对 传 风 关于 输入 向 量 
的 预 处 理 要求 与 处 理 方法 ,Kohonen 层 的 训练 算法 及 其 权 符 阵 的 初始 化 方法 ;Grossberg 层 的 训 
练 ; 完 整 的 对 传 网 。 





s.1 网 络 结 构 


按照 对 传 网 所 表达 出 来 的 意思 , 它 应 该 是 可 以 完成 信号 的 双向 变换 和 传递 的 。 不 过 ,为 了 叙 
述 简洁. 易 慌 起 见 ,我们 先 介绍 CPN 的 向 前 传递 阶段 ,并 简称 它 为 单 向 CPN ,而 完整 的 CPN{ 双 
向 网 ) 在 原理 上 是 一 样 的 ,将 留 在 最 后 介绍 。 同 时 ,为 了 区 分 起 见 , 在 这 里 简称 完整 的 CPN 为 全 
对 传 网 ,并 统一 地 将 它们 记 为 CPN。 
图 5- 1 给 出 了 简化 的 单 向 CPN 的 拓扑 结构 。 从 表面 上 看 , 它 和 前 曾 介 绍 的 二 级 网 络 是 相 
同 的 ,但 是 在 运行 过 程 中 , 它们 实现 的 策略 却 是 不 同 的 。 因 此 ,对 一 个 网 络 ,除了 它 的 拓扑 结构 
外 ,其 运行 机 制 也 是 确定 网 络 结构 (如 : 同 构 异 构 ) 和 性 能 的 重要 因素 。 
































自 组 织 肌 身 散射 星 
《无 导师 学 习 》 《有 导师 学 习 ) 


输入 屋 Kohenen 层 Grossberg 必 


图 5-1 单 向 CPN 结构 


第 0 层 (输入 居 ) 的 神经 元 只 起 到 将 输入 向 量 广播 到 Kohonen 层 的 作用 ,使 得 输 人 网 基 的 每 
一 个 分 最 可 以 被 按照 ~- 定 的 联接 权 传递 到 第 1 层 (Kehonen 层 ) 的 每 个 神经 元 。Kohonen 层 的 联 
接 权 移 阵 用 W 表示 :按照 惯例 ,zes 表 示 输 入 向 量 的 第 ; 个 分 量 到 Kohonen 层 的 第 ) 个 神经 元 的 
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联接 权 。 第 2 层 叫 做 Girossberg 层 ,Kohonen 层 的 第 ;个 神经 元 到 Cirossberg 层 的 第 j 个 神经 元 
的 联接 权 用 由 表 示 , 它 们 族 在. -起 构成 Grossberg 层 的 权 和 矩阵 。 从 该 网 络 来 看 .将 网 络 的 联接 
(Connection) 层 的 个 数 用 来 计算 网 络 的 层 数 是 方 使 的 。 在 这 里 ,仍然 用 向 量 : 
居 = (riteorn) 
了 = (0 
分 别 表示 输 和 人 向量 和 输出 向 量 。 其 中 ,” 为 输入 向 量 的 维 数 , mm 为 输出 向 量 的 维 数 ,同时 也 是 
Crossberg 层 圳 经 元 的 个 数 。 上 六 为 Kohonen 层 神经 元 的 个 数 。 
另外 ,由 于 该 网 络 的 特殊 性 ,将 以 Kohonen 层 的 神经 元 为 “中 心 "来 讨论 一 些 问 题 。 为 了 叙述 
方便 ,使 用 如 下 记 续 : 
到 (wear 
古 2= (wa 
WA 二 (ayaaan Tt 
= (oayzpvat) 


史 = (oo 


下 (Walshm) 

与 其 他 网 络 一 样 ,CPN 有 两 种 工作 模式 :训练 模式 和 正常 工作 模式 。 在 训练 模式 下 ,对 一 个 
样本 (下 ,了 ) ,Kohonen 居 按 照 夺 的 要 求 进行 无 导师 学 习 ( 自 组 织 映 射 要 求 的 学 习 )。 对 应 地 ， 
Crossberg 层 则 按照 理想 输出 Y 的 要 求 测 整 相应 的 联接 权 。 在 正常 工作 模式 下 ,给 定 的 输入 向 
量 于 被 加 在 网 络 上 ,通过 Kohonen 层 的 自 组 织 映射 而 使 该 层 的 神经 元 处 于 相应 的 状态 (在 最 简 
单 的 情况 下 ,该 层 的 神经 元 将 仅 有 一 个 处 于 激发 态 ) ,由 这 个 状态 表达 的 信息 被 Grossberg 层 转 换 
成 用 户 要 求 的 形式 输出 。 下 面 分 别 对 它们 进行 讨论 。 





5.2 网 络 的 正常 运行 


在 CPN 中 ,Kohonen 层 和 (rossherg 层 不 仅 执行 不 同 的 调 练 算法 ,而 且 它们 在 正常 运行 阶段 
所 执行 的 算法 也 是 不 同 的 。 


5.2. 上 Kohonen 层 


在 最 简单 的 情况 下 ,Kohonen 层 是 以 * 强 者 占 先 .弱者 退出 "(the winner rakes all) 的 方式 工作 

的 。 这 就 是 说 ,对 一 个 给 定 的 输入 向 量 ,Kohonen 层 的 神经 元 处 于 激烈 的 竞争 中 ,最 后 , 淮 获 得 的 

网 络 输入 最 大 , 谁 就 处 于 激发 态 ,而 其 他 的 就 处 于 掉 制 态 。 同 邮 规定 ,处 干 激发 态 的 神经 元 输出 

为 1 ,而 处 于 换 制 态 的 神经 元 输出 为 0。 在 本 书 中 ,不 再 讨论 多 个 神经 元 可 以 同时 处 于 激发 状态 

的 复杂 情况 的 处 理 。 实 际 上 ,复杂 情况 的 处 理 是 类 似 的 ,只 是 在 处 理 细节 上 有 一 定 的 差别 、 有 关 
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这 类 问题 , 留 给 读者 去 思考 。 
根据 网 络 的 特点 ,讨论 与 Kobonen 层 的 每 个 神经 元 相关 联 的 权 向 量 奴 ， ，…，Wi。 对 
Kobonen 层 的 每 个 神经 元 太 {T 受 ) 委 上 , 它 所 获得 的 网 络 输入 : 


Rnteb) = 在 全 ) 
= (zz (zoom 》 了 
二 WIFI TFI 二 二 Tom 5 ~1 
天 NE 了 = 《Rnetl, 开 met2， 克 met ) 
玖 KK 的 输出 二 ,Aa 如 构成 向 量 : 
五 三 【天 1 天 2 5 一 2 
其 中 .对 1 私 j) 委 六 
用 Re 二 TBX1 开 Tet1 ,天 FeE2 4 二 E 扩 3 
10 其 他 


从 式 5-1 和 35-3 可 知 ,对 每 全 输入 向 量 厂 ,Kohonen 层 的 每 个 神经 元 Ki(I 和 ) 迄 ) 所 获得 
的 网 络 输入 就 是 输入 向 量 于 与 它 相对 应 的 联接 权 向 量 克 ; 的 点 积 。 由 此 ,可 以 给 出 Kohonen 层 
的 输出 这 样 的 几何 解释 :Kohonen 层 的 每 个 神经 元 本 (1 之 j 魏 呈 ) 对 应 一 个 分 类 ,同时 , 它 对 应 的 
联接 权 向 量 研 与 使 神经 亢 K; 激发 的 这 一 组 X 的 “几何 距离 "最 近 , 所 以 丽 ; 就 是 这 一 组 美的 代 
天。 请 读者 注意 ,Kohonen 层 输出 的 几何 解释 指出 了 Kohonen 层 训练 所 要 求 的 方式 。 


3.2.2 _Grossberg 层 
按照 人 工 神经 网 络 的 运行 模型 的 定义 ,对 (rossberg 层 的 每 个 神经 元 人 (1 扫 j 委 允 ) , 它 所 获 
得 的 网 络 输入 为 
Bt 一 下 (0 
十 
二 12U 十 古 202) 十 十 于 
如 上 所 述 ,假定 Kohonen 层 按照 最 简单 的 方式 工作 。 这 样 ,对 应 每 一 个 输入 向 量 , 该 层 只 有 
唯一 的 一 个 神经 元 处 于 激发 态 而 输出 1 ,其 他 的 神经 元 均 答 出 0。 假 设 这 个 唯一 输出 1 的 神经 邢 
为 KK, 由 式 5-4, 此 时 ,Grossberg 晨 的 神经 元 Gi(1 科 j 迄 性) 所 获得 的 网 络 输入 为 
ED 二 友 DU 十 下 0 十 二 5-5 


= 四 
此 时 
GNET = (Snetlygnet2 Btetn》 


= 《oo yz yzon) 
该 向 量 正 好 就 是 与 玉 , 对 应 的 向 量 允 。 如 果 此 时 Grossberg 层 的 神经 元 的 激活 函数 为 恒 等 映射 
量 数 , 则 Girossberg 层 的 输出 (也 就 是 该 CPN 的 输出 ) ,就 是 V。。 可 以 认为 , V。 为 玫 , 对 应 的 风 ， 
的 变 换 形 式 。 由 于 V。 的 各 个 分 量 都 是 从 天 。 到 Grossberg 层 各 神经 元 的 联接 权 , 所 以 此 算法 被 
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称 为 散射 星 (Outstar)。 

因此 ,如 果 将 CPN 用 于 煤 式 的 完善 , 则 此 时 有 

尹 和 了 

网 络 接受 含有 噪音 的 输入 模式 (zl,ra,，…，,zn), 而 输出 去 掉 噪 音 后 的 模式 为 ( pol,wa，… ,xzon)。 

综 上 所 述 , 对 一 个 输入 向 是 于 ,CPN 首先 检查 它 与 厂 ， 且 2， 古 ) 中 的 哪 一 个 最 为 接近 。 
最 接近 的 Wi 对 应 的 神经 元 民 被 激发 。 一 方面 ,这 说 明 CPN 将 样本 空间 中 的 输 人 向 量 分 成 了 大 
类 ,而 且 它们 的 代表 分 别 是 Wi Wi Wi。 所 以 ,当面 临 的 问题 比较 复杂 ,需要 将 输入 向 量 分 
更 多 的 类 的 时 候 ,可 以 适当 地 增加 Kohonen 层 神 经 元 的 个 数 。 另 一 方面 ,CPN 的 分 类 实际 上 是 
在 寻找 与 输 和 向量 蕊 最 接近 的 允 ,。 因 此 ,它们 的 初始 化 是 非常 重要 的 。 这 不 仅 会 影响 到 训练 
的 速度 ,而且 还 会 直接 地 影响 到 网 络 的 精度 。 在 Kohonen 层 完成 模式 的 分 类 之 后 ,对 (Grossberg 
层 而 言 , 它 就 是 以 适当 的 方式 输出 被 激发 的 所。 所 对 应 的 向 量 册 。 因 此 , Y, 实际 上 就 是 怨 ,的 一 
个 变换 。 所 以 ,在 训练 过 程 中 ,对 古 ， 殉 ;，… 奋 ,将 努力 使 它们 代表 各 类 X 的 共同 特征 。 例 
如 ,可 以 将 这 一 类 慰 的 平均 值 作为 相应 的 研 , 的 训练 目标 ;对 Vi, Ya ，…， 屿 , 则 是 让 它们 对 应 地 
去 表现 Wi 多 ，…， Ws 所 代表 的 样本 集中 的 于 对 应 的 理想 输出 Y 的 共同 特征 。 








5.3 ”Kohonen 层 的 训练 


上 节 已 介绍 过 ,Kohonen 层 按 归 输入 向 量 太 的 相似 度 完 成 对 它们 的 分 类 。 分 类 的 结果 由 
Crossberg 层 转换 成 要 求 的 输出 形式 。Kohonen 层 使 用 自 组 织 算法 ,按照 无 导师 方式 学 习 ; 因 此 ， 
对 一 个 给 定 的 输 和 向量 ,Kohonen 层 的 娜 一 个 神经 元 被 激发 ,人 们 事先 是 不 知道 的 ,算法 只 能 保 
证 将 不 相似 的 向 量 区 分 开 来 ,而 使 相似 的 向 量 能 激发 Kohonen 层 的 同一 个 神经 元 。 为 了 较 好 地 
实现 这 一 思想 ,算法 强烈 希望 将 输入 向 量 ,以 及 Kohonen 层 各 神经 元 对 应 的 Kohonen 层 的 权 疝 
量 Wi， 鲜 ;，…， WAn 进行 规范 化 处 理 ,使 它们 均 为 单位 向 量 , 以 保证 竞争 的 * 公 羊 性 "。 


5.3.1 输入 向 量 的 预 处 理 


输 和 向量 的 预 处 理 就 是 对 输 人 向 量 进行 单位 化 处 理 。 要 完成 的 主要 是 比较 简单 的 数学 运 

算 , 只 要 将 向 量 的 每 一 个 分 量 除 以 该 向 量 的 模 就 可 以 了 。 设 

下 = 《zz yzn) 
马 的 模 ， 

让 关上 = sqrt((zlyzayzr) (zzreeyznyT) 
下 的 单位 化 向 量 : 
在 = (ze 
= (2zZ 有 正直 ,zsZ 于 二 zaZ| 于 上 》 
即 ,对 1 所 ;和 肥 w ,有 
1 
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为 了 叙述 的 方便 起 见 ,在 本 京 中 ,后面 出 现 的 输入 向 旦 均 被 假定 是 单位 向 基 , 除 非 给 予 特殊 
说 明 。 


5.3.2 训练 


为 了 使 r， 峡 ?，，W) 能 较 好 地 代表 网 络 所 给 出 的 样本 集中 的 输入 向 量 的 类 划分 ,对 一 个 
给 定 的 输 和 向量 夺 , 首 先 必 须 在 厂 1 ,多 ?，…, Wy 中 找 出 目前 谁 最 接近 天。Kohonen 层 中 的 神经 
元 的 网 络 输入 为 丰 与 它 对 应 的 权 向 量 的 点 积 ,而 点 积 最 大 者 ( y,) 拥 有 与 于 最 大 的 相似 度 。 所 
以 ,应 该 用 它 来 代表 豆 所 在 的 烽 - 而 为 了 使 它 更 好 地 代表 于, 需 进 一 频 调 整 该 三 ,, 使 它 变 得 更 
接近 大 ,以 便 更 好 地 代表 。 但 是 ,这 种 调整 幅度 不 能 太 大 ,必须 是 有 限度 的 ,否则 ,算法 将 会 出 
现 强 废 的 抖动 。 据 此 ,有 下 列 算法 : 


算法 5~ 1 Kohonen 层 训练 算法 
1 对 所 有 的 输入 疝 量 ,进行 单位 化 处 理 ; 
2 对 每 个 样本 ( 开 , 了) 执行 下 列 过 程 
2.1 for) 21toAdo 
2.1.1 根据 式 5- 1 计算 Enaet; 
2.2 求 出 最 大 的 bmelo 
2.2.1 moz = peti3o = 工 
2.2.2 forj = 1to 贞 do 
2.2.2.1 这 jneb>anazr then lar = pneiio nil 
2.3 计算 下: 
2.3.1 forj) =1tohdo= 1 
2.3.2 二 一 1 
2.4 使 机 ,更 接近 瑟 ， 
em 二 厂 人 由 二 af( 系 一 Wo ); 
2.5 对 W?9” 进行 单位 化 处 理 。 


在 算法 的 2.1 步 中 ,未 给 出 tnet 的 具体 计算 方法 。 它 的 计算 除了 包括 输入 向 量 的 各 个 分 量 
的 加 权 和 之 外 ,还 有 一 部 分 为 通过 侧 联 接 而 获得 的 来 自 本 层 的 捉 经 元 的 输入 。 按 照 本 节目 前 所 
设 定 的 最 简单 的 工作 模式 ,这 些 来 自 侧 联接 的 信号 对 神经 元 来 说 均 应 该 是 抑制 性 的 。 它 们 用 来 
实现 本 层 神经 元 之 间 的 竞争 。 在 程序 的 实现 中 ,可 以 用 一 个 单独 的 六 行 ,A 列 的 二 维 数组 实现 。 
除 对 角 线 元 素 取 正 值 外 ,其 他 元 素 都 应 该 取 负 值 。 同 时 读者 还 应 该 注意 , 侧 联接 的 权 值 要 与 输入 
层 的 联接 的 权 值 在 大 小 上 有 一 个 协调 ,使 它们 都 能 较 好 地 发 挥 作 用 。 
算法 的 步骤 2.4 使 用 公式 
om = 0 Ha(X- 钱 od) 5-8 
来 使 本 4e") 变 得 比 夺 (od) 更 接近 于。 其 中 , We 表示 好 ,在 本 次 被 调整 后 的 值 , 克 (od 表示 
.0 


苏 . 在 本 次 调整 之 前 的 值 。x 为 学 习 率 ; 
aE& 0.1) 3 一 
可 以 证 明 , 使 用 式 5-8 对 We 进行 变 柳 后 .确实 会 使 得 Wi 变 得 比 W 9 更 接近 X， 
党 实 上 : 
机 = 本 + at( 革 一 人 9 ) 
= Wo + o 芝 -wo 
基 - 儿 em= 轩 [Wo +a( 时 -有 6d)] 
二 6 
(Lay-WeO(L-e) 
= Wo 
从 而 
-We 人 La) 厚 侣 ) 
马 二 We 二 三 WR 





=1-a 
由 式 5-9 知 (1- oa)<1。 所 以 , 环 ee 比 研 fd 更 接近 夺 。 
图 5-2 为 式 5-8 的 几何 表示 ,从 图 中 可 以 看 出 ,We 确实 比 三 'od 更 接近 瑟 。 几 中 的 图 
为 单位 圆 。 疡 以 ,从 原点 到 该 圆 上 任 一 点 的 向 量 都 是 单位 向 量 。 
算法 的 步骤 2.5 要 求 对 多 (4” 进行 规范 化 处 理 ,这 是 为 了 保证 后 续 的 训练 仍然 能 以 相同 的 
方式 进行 。 当 然 ,包括 对 输入 向 基 X 的 单位 化 处 理 在 内 ,都 要 求 算法 付出 新 的 代价 。 但 是 ,对 
总 ,多 进 行 了 单位 化 处 理 之 后 ,会 使 本 层 的 训练 更 有 效 地 进行 。 因 此 ,为 和 ,三 的 单位 化 所 付出 
的 代价 是 值得 的 。 在 用 程序 实现 的 时 候 , 建 议 读者 设计 出 一 个 专门 的 子 程序 来 完成 此 项 工作 。 
在 图 5- 2 中 ,被 进行 过 单位 化 处 理 的 环 (“” 将 在 未 被 单位 化 处 理 的 Wiod) 的 基础 上 ,继续 
延长 到 单位 圆 上 ,也 就 是 说 , 它 的 方向 不 变 , 只 是 长 度 延长 。 




















图 5-2 式 5-8 的 几何 意 文 


从 上 述 讨论 不 难看 出 ,算法 的 第 一 步 要 求 对 色 ， 进行 初始 化 处 理 是 很 有 必要 的 。 


全 


学 习 率 “在 0 和 1 之 问 了 到 值 。 实 践 经 验 告诉 我 们 ,在 训练 的 初期 , 一 般 取 0.7 左右 , 它 将 
蝴 着 训练 的 进展 不 断 变 小 。 这 是 内 为 ,算法 的 运行 表明 ,到 了 后 期 , 研 ) 已 经 对 应 一 组 于 ,而 不 是 
一 全。 所 以 ,在 这 个 阶段 ,不 能 允许 一 个 下 对 印 ; 的 影响 太 大 。 因 为 ,此 时 如 果 再 让 导 对 本 | 的 
影响 过 大 , 它 会 过 多 地 蔽 坏 本 对 该 类 中 其 他 输入 向 旺 的 表达 ,等 这 些 向 量 在 下 次 选 代 中 重新 出 
现时 , 它 又 会 对 W'; 进行 较 大 的 调整 ,这 样 一 来 ,训练 就 会 陷 人 抖动 。 当 然 ,在 训练 的 初期 ,由 于 
各 神经 元 正 处 于 待 选 状 态 ,所 以 当 过 到 一 个 合适 的 输入 向 量 时 ,就 尽量 地 去 表示 它 。 如 果 在 开始 
训练 时 取 " 为 1, 就 相当 于 让 W, 直接 取 三 , 当 样本 顺序 比较 合适 ,分 布 也 比较 检 当 时 ,这 种 做 法 
是 比较 好 的 。 但 是 ,在 大 多 数 情况 下 , 它 会 导 敏 例 , 进 人 一 个 不 太 合适 的 “类 "的 表示 中 。 也 会 造 
成 分 类 的 “人 为 "畸形 ,使 得 有 的 类 非常 小 ,有 的 类 又 太 大 ,甚至 导致 有 的 大 被 放 人 错误 的 类 中 。 
因此 ,除非 情况 明显 ,建议 读者 一 般 不 要 取 w 为 1。 
实际 上 ,如 果 在 训练 之 前 能 用 其 他 适当 的 方法 事先 给 问题 一 个 粗略 的 分 类 ,并 从 这 个 分 类 中 
提取 一 个 较 有 代表 性 的 向 量 构成 样本 集 , 这 时 ,Kohonen 层 的 每 个 压 (对 应 一 个 神经 元 ) 的 值 直 
接 对 应 一 个 半 : 则 可 取 w 为 1 ,使 得 获胜 者 的 权 疝 量 直 接 取 于 。 这 种 做 法 又 启发 我 们 采用 训练 和 
真 接 设 定 权 向 基 的 方式 来 完成 该 层 的 调 练 。 即 在 进行 初始 化 时 ,直接 用 初 选 的 样本 集中 的 样本 
来 对 凡 进行 初始 化 ,然后 再 适当 地 扩大 样本 集 , 用 扩大 后 的 样本 集 实施 上 述 算法 ,完成 对 
Kohonen 层 的 训练 。 

一 般 来 说 ,一 个 类 含有 许多 向 基 。 这 个 类 对 应 的 研 ; 应 该 是 样本 集中 这 一 类 向 量 (输入 向 量 
部 分 ) 的 平均 值 。 








S.4 Kohonen 层 联 接 权 的 初始 化 方法 


联接 权 的 初始 化 ,是 人 工 神经 网 络 训练 的 第 一 步 。 通 常 使 用 一 些 不 同 的 小 伪 随 机 数 作为 它 
们 的 初 值 。 按 照 上 几 节 的 分 析 ,Kohonen 层 的 联接 权 对 应 于 该 层 的 每 个 神经 元 而 构成 的 向 量 应 
该 是 单位 向 量 。 这 是 为 后 面 的 训练 所 作 的 准备 。 

一 个 非常 重要 的 问题 是 ,样本 集中 的 输入 向量 决 定 着 网 络 对 其 将 进行 的 分 类 。 按 照 上 节 的 
分 析 , 在 理想 的 情况 下 , 村， 环 ;，…, 丽 ， 的 初 值 应 该 依照 样本 集中 的 输入 向 量 的 分 布 来 确定 。 
而 实际 上 ,一 般 很 难 天 清楚 样本 集中 的 输入 向 量 的 分 布 情况 。 实 际 上 ,Kohonen 层 的 重要 工作 之 
一 就 是 要 找 出 样本 集中 输入 向 量 的 分 布 情况 。 当 然 ,如 果 样本 集中 输 人 向 量 的 分 布 是 均匀 的 ,就 
可 以 按照 随机 均匀 分 布 的 方式 去 完成 对 厂 j， 多 环 , 的 初始 化 工作 。 然 而 ,在 多 数 情 况 下 ， 
样本 集中 的 输 人 向 量 的 分 布 并 不 是 均匀 的 。 所 以 ,用 不 同 的 小 伪 随 机 数 作为 联接 权 的 初 值 的 做 
法 就 不 一 定 是 适应 的 ,这 可 能 造成 严重 的 不 平衡 。 因 为 不 同 的 小 伪 随 机 数 会 使 这 些 权 向 量 的 初 
值 均匀 地 分 布 在 一 个 高 维 “ 妹 面 "上 ,而 对 应 的 输入 向 莉 通 常 的 不 均匀 性 会 使 得 它们 赵 向 于 在 这 
个 高 维 "球面 "的 某 一 部 分 聚集 ， 随 机 的 权 向 量 的 大 多 数 会 因为 离 输入 向 量 * 太 远 " 而 元 法 获得 匹 
配 ,从 而 使 相应 的 神经 元 输出 总 是 为 0, 这样 一 来 ,该 神经 元 和 它 对 应 的 这 组 联接 权 以 及 它 对 应 
的 Grossberg 层 的 那 一 组 联接 权 就 被 浪费 掉 了 。 与 此 同时 ,其 中 会 有 一 部 分 神经 元 代表 的 类 含有 
过 多 的 输入 向 量 , 因 此 ,又 难以 对 这 些 向 量 进行 人 们 所 期 望 的 分 类 。 
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按照 上 述 分 析 , 最 为 理想 的 是 能 够 根据 输入 向 量 的 实际 分 布 来 设置 Kohenen 层 各 神经 元 对 
应 的 权 向 量 。 实 际 上 ,要 做 到 这 一 点 是 很 困难 的 。 昌 然 在 上 面 兽 经 提 到 过 可 以 根据 实际 问题 进 
行 一 定 的 “ 预 处 理 ”, 但 是 这 样 一 来 不 仅 增加 了 困难 ,而 旦 这 一 困难 部 分 是 在 牺牲 了 Kohonen 层 的 
自动 分 类 功能 后 出 更 的 。 所 以 ,一 般 来 说 ,不 会 采用 此 方法 ,尤其 是 对 复杂 问题 来 说 更 是 如 此 。 

从 上 述 分 析 知 道 ,寻求 一 些 有 效 的 权 和 矩阵 初始 化 方法 是 非常 有 必要 的 。 在 这 里 介 细 
Kohonen 层 联接 权 的 几 种 初始 化 方法 。 它 们 各 有 特点 ,可 以 参考 使 用 。 

1. 凸 状 组 合法 

与 使 用 一 些 不 同 的 小 伪 随 机 数 对 联接 权 进 行 初始 化 不 同 , 凸 状 组 合法 是 用 同一 个 数 来 初始 
化 Kohonen 层 的 每 一 个 联接 权 。 

仍然 设 输入 向 量 是 ” 维 的 ,输出 向 量 为 zm 维 的 ,Kohoenen 层 有 到 个 神经 元 , 则 对 任意 的 ;1 
和 肛 ; 委 2) JE 入 有 ), 取 
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中 ,sqrt(n) 表 示 z 的 算术 平方 根 。 
与 联接 权 的 这 一 初 值 相 对 应 ,要求 对 输入 向量 进行 下 列 变 换 ,以 便 能 较 好 地 适应 之 。 设 


长 = (zzayzn) 








局 


咱 变 换 后 的 下 ( 记 为 不 ) 为 


叶 = (zz 








其 中 
= 二 5- 1 
在 训练 的 初期 阶段 ,， 的 值 非常 小 ,此 时 
1 
x+ 
- 坟 + (zi 方 ) 
上 
万 


这 使 得 
1 


枯 上 1 
三 
成 立 ,这 也 使 得 区 成 为 近似 的 单位 向 旺 , 瑚 旦 和 Kohonen 层 的 神经 元 对 应 的 权 向 量 近似 。 
随 着 训练 的 进行 ,) 趋 近 于 ! ,从 而 使 臣 ' 趋 近 于 瑟 , 进 而 使 得 研 | 趋 近 于 一 组 时 的 平均 值 。 
这 种 方法 较 好 地 解决 了 初始 权 向 基 的 分 布 与 输 人 向 量 分 布 难以 一 致 的 问题 。 但 是 ,由 于 在 
训练 中 ,是 逐渐 趋 近 于 X 的 ,相应 地 ,也 就 有 一 组 下 "的 平均 值 逐渐 地 "* 收 和 伍 " 于 对 应 的 这 一 组 
屠 的 平均 值 。 这 说 姐 相 应 的 训练 算法 能 够 使 Wi 不 断 地 调整 自己 的 “运动 方向 ,以 追踪 运动 中 


后 


的 日 标 。 显 然 ,让 算法 跟踪 一 个 和 运动 的 目标 要 比 计 它 逼 近 一 个 固定 目标 几 难 得 多 。 因 此 ,该 方法 
晶 然 能 够 工作 ,但 是 , 它 的 收敛 速度 将 基 非 常 惕 的 - 

2. 座 加 噪音 法 

廿 状 组 合法 实际 上 是 通过 在 输入 向 量 中 加 嗓音 而 使 输 和 人 疝 基 重新 分 布 ,只 不 过 这 种 噪音 较 
一 致 。 如 果 按 照 通 常 的 习惯 ,使 用 一 些 不 同 的 小 伪 随 机 数 来 初始 化 权 间 量 ,得 到 一 个 均匀 分 布 的 
权 问 基 , 然 后 ,在 输入 向 量 中 滩 加 随机 的 噪声 ,使 它们 也 变 得 是 均匀 分 布 的 ,从 而 解决 两 者 分 布 不 
同 的 好 丑 。 这 各 方法 叫做 添加 噪音 法 - 

显然 ,在 这 种 方法 中 ,在 输入 向 量 中 加 进 适 当 的 隐 机 曲 育 后 ,使 得 输入 向 量 的 分 布 变 成 均匀 
的 ,网 络 中 的 所 有 权 向 量 就 可 以 比较 容易 地 被 这 些 均匀 分 布 的 “ 答 和 向量" 所 "捕获 "。 然 后 ,算法 
逐渐 好 去 掉 所 加 的 唤 音 ,最终 , 权 向 量 就 会 变 得 按 输 入 向 量 的 分 布 而 分 布 了 。 

与 凸 状 组 合法 类 似 , 添 加 噪音 法 也 是 让 环 , 不 断 地 调整 自己 的 “运动 方向 ”, 去 追踪 不 断 变化 
的 日 标 。 试 验 表 明 ,这 种 方法 的 收敛 速度 比 凸 状 组 合法 更 慢 。 

3, 初期 全 凋 法 

Kohonen 层 的 初始 权 向 量 的 分 布 与 输入 向 量 分 布 的 不 一 致 ,会 造成 一 些 权 向 量 获得 过 多 的 
输入 匹配 , 侧 同 时 又 在 一些 权 向 量 得 到 很 少 的 匹配 ,有 的 甚至 得 不 到 匹配 。 凸 状 组 合法 .添加 噪 
音 法 通过 给 输 人 向 量 加 唱 音 来 避免 这 一 现象 发 生 。 初期 全 调 法 则 是 直接 从 避免 这 种 现象 人 手 ， 
去 解决 问题 。 该 方法 在 训练 的 初期 ,对 应 一 个 输入 向 量 ,允许 多 个 神经 元 同时 处 于 激发 状态 。 这 
样 , 相 应 地 就 有 多 个 权 向 量 获 得 调整 。 被 激发 神经 元 的 多 少 可 以 通过 一 个 限定 值 来 控制 。 这 个 
限定 值 可 以 是 同时 可 能 被 激发 的 神经 元 的 最 大 个 数 ,也 可 以 是 网 络 输 人 超过 某 一 阔 值 的 所 有 的 
神经 元。 随 着 算法 的 进展 , 逐 浙 减少 被 激发 的 神经 元 的 最 大 个 数 或 者 逐渐 提高 所 定 的 阔 值 ,最 后 
达到 对 一 个 输入 问 其 只 有 一 个 神经 元 激发 。 

这 种 方法 的 另 一 种 实现 是 ,对 每 一 个 输入 向 基 , 虽 然 每 次 只 有 一 个 神经 元 处 于 激发 态 ,但 是 ， 
在 训练 的 初期 ,算法 不 仅 调整 " 效 胜 "的 神经 元 对 应 的 权 向 莉 ,而 且 对 其 他 的 权 疝 最 也 作 适 当 的 调 
整 ， 随 着 训练 的 推进 ,被 调整 的 将 逐渐 变 成 是 与 “获胜 "的 神经 元 对 应 的 权 向 量 “ 最 近 " 的 一 些 权 
向 量 , 这 样 ,被 调整 的 范围 逐渐 缩小 ,直到 最 终 只 有 ”获胜 "的 神经 元 对 应 的 权 向 量 才 被 调整 。 

在 上 述 第 二 种 实现 中 ,调整 的 范围 也 需要 有 一 个 适当 的 度量 。 而 且 ,这 个 度量 应 该 是 随时 间 
变化 旦 容易 计算 的 。 荔 外 ,除了 -获胜 "的 昼 经 元 对 应 的 权 癌 量 外 ,其 他 的 权 疝 基 的 “适当 调整 "也 
是 需要 认真 考虑 的 问题 。 显 然 ,这 个 “适当 的 调整 量 "应 该 比 " 黎 胜 者 对 应 的 权 向 量 的 调整 量 要 
小 。 面 且 , 随 着 训练 算法 的 进行 ,这 一 阅 整 量 也 应 逐渐 减少 。 

4，PeSieno 法 

该 方法 是 D. DeSicno 1988 年 提出 的 。 他 根据 Kohonen 层 的 初始 权 向 量 的 分 布 与 输 和 人 向量 
的 分 布 不 一 致 可 能 造成 有 的 神经 元 会 获得 过 多 的 匹配 的 现象 , 直接 限制 Kohonen 层 的 每 个 神经 
元 对 庶 的 权 向 量 可 以 匹配 的 输入 向 量 的 最 大 个 数 。 当 某 一 个 权 向 量 所 获得 的 匹配 向 量 超过 给 定 
的 数 后 , 它 的 闭 值 就 被 临时 提高 ,以 增加 其 他 神经 元 "获胜 " 的 机 会 。 一 般 地 ,这 个 最 大 个 数 可 以 
是 样本 总 数 的 1 。 

这 种 方法 的 问题 是 当 最 应 该 被 某 个 神经 元 对 应 的 权 向 量 距 配 的 输 人 向 量 在 较 后 的 时 候 被 输 
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入 时 , 它 可 能 被 拒绝 ,从 而 造成 网 络 精度 的 损 撩 ,应 该 引起 读者 的 注意 。 

通过 对 Kohonen 层 的 训练 , 可 以 使 它 抽象 出 输 人 向 量 集 中 的 一 些 统计 特性 。1988 午 ， 
Kohonen 曾经 证 明 ,在 一 个 被 定 全 训练 过 的 网 中 ,随机 选取 的 输入 向 量 与 任何 给 定 的 权 疝 基 是 最 
接近 的 概率 是 1/。 这 就 是 说 ,就 一 般 的 统计 特性 看 来 ,每 个 按 均匀 分 布 初 值 的 权 向 量 都 具有 相 
同 的 被 瑟 配 的 概率 。 


$.5  Grossberg 层 的 训练 


相对 于 Kohonen 层 的 训练 而 言 , Grossherg 层 的 训练 要 容易 许多 . 在 这 里 ,算法 将 依据 
Kohonen 居 被 调整 的 权 向 量 对 应 的 神经 元 ,来 调整 它 所 对 应 揭 (irossberg 层 的 权 向 量 。 所 以 ,与 
前 面 介 绍 的 Kohonen 层 训练 算法 的 些 调整 相对 应 ,这 里 介绍 的 Crossberg 层 的 训练 也 应 该 随 之 
有 相应 的 调整 。 

设 ( 夺 , 了 ) 为 一 样本 , 当 环 被 输入 到 CPN 中 后 ,Kohonen 层 的 神经 无 K。 被 激发 ,此 时 民 , 的 
输出 太 为 1, 其 他 的 神经 元 输出 为 0 用 下 式 对 玉 进行 调整 : 
本 三 (1 二 用 ) 5- 12 
其 中 册 为 Kohonen 层 的 神经 元 民 , 到 Grossberg 层 的 神经 元 G 的 联接 权 ,w 为 学 习 率 。 写 成 向 
量 形式 ,有 














VC) = VD Hu 下) 5- 13 
为 了 方便 ,将 式 5-8 重新 写 在 下 面 ; 
研 pem = 印 od + (大 古 oD) 
比较 这 两 个 式 子 ,不 难看 出 ,Grossberg 层 的 训练 与 Kohonen 层 的 训练 是 类 似 的 :与 kohonen 层 的 
训练 是 将 研 , 训练 成 为 这 一 类 大 的 平均 值 相 对 应 ,Grossberg 层 的 洲 练 则 是 将 对 应 的 成 , 训练 成 
为 这 一 类 于 对 应 的 了 的 平均 值 。 
由 此 可 见 ,Kohonen 层 的 训练 可 以 说 是 以 大 为 目标 ,而 Grosshberg 层 的 训练 则 是 以 王 为 身 标 
的 。 这 就 是 说 ,从 单 级 网 的 角度 来 看 ,这 两 层 的 训练 都 是 有 导师 洲 练 。 但 是 ,对 整个 赔 络 来 说 ,天 
是 输入 向 量 ,Y 是 输出 阅 量 。 所 以 ,又 可 以 认为 前 者 是 无 导师 训练 ,后 者 是 有 导师 训练 。 
上 面 我 们 分 别 叙述 了 CPN 的 Kohonen 层 的 训练 和 (Cirossberg 层 的 训练 。 但 实际 上 ,CEPN 这 
两 层 的 训练 器 可 以 同时 进行 ,也 可 以 分 开 进行 。 当 分 开 进 行 时 ,网络 洲 练 的 实现 算法 可 以 被 设计 
得 效率 要 高 一 些 ,但 它们 执行 的 原理 算法 都 是 一 样 的 。 
设 CPN 的 样本 集 ; 
8S = |XY) | 大,Y 是 一 个 样本 对 ,其 中 是 芯 对 应 的 理想 输出 向 量 } 
算法 5-2 将 对 两 层 同 时 进行 训练 。 





算法 5- 2 CPN 训练 算法 一 
0 对 吓 . 史 进行 初始 化 ， 
1 对 所 有 的 输入 内 量 ,进行 单位 化 处 理 ; 
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2 对 每 个 样本 (时 ,了 ) 执 行 下 列 过 程 ， 
2.1 for/ = 1to 上 do 
2.1.1 根据 式 5- 1 计算 enet 
2.2 求 出 最 大 的 &nets: 
2.2.1 zeaz = Retlyo = 了; 
2.2.2 fory = lito 太 do 
2.2.2.1 证 Rnet 六 ?mar then jzmaazr = Anet3o 二 Ji 
2.3 计算 改 : 
2.3.1 fory = ltohndo 台 = 10; 
2.3.2 刀 = 1 
2.4 使 多 , 更 接近 天 
责 人 二 用 人 二 (大 -全 (0d); 
2.5 对 多 4 进行 单位 化 处 理 ; 
2.6 使 风 更 接近 Y， 
VTS +e(- Ye)。 


实际 上 ,上 述 算 法 只 是 在 算法 5- !(Kohonen 层 的 训练 算法 的 基础 上 增加 了 对 厂 、Y 的 初 
始 化 和 步骤 2.6。 下 面 算法 的 效率 要 高 一 些 , 但 它 要 求 有 和 额 外 的 存储 。 


算法 5-3 CPN 训练 算法 二 
0 对 环 .Y 进行 初始 化 ; 
0 清空 Kohonen 层 各 神经 元 对 应 的 纪录 表 : 
forj = 1tAdoSKEi= 台 ; 
1 对 所 有 的 输入 向 量 ,进行 单位 化 处 理 ; 
2 对 每 个 样本 (其 ,Y,) 执 行 下 列 过 程 : 
2.1 fory = 1rohndo 
2.1.1 根据 式 5-1 计算 nep' 
2.2 求 出 最 大 的 kmneto: 
2.2.1 maz = kretlio 一 1: 
2.2.2 foryj = 上 ip 太 do 
2.2.2,1 这 冯 neb>>7etX then | Maz 二 netio = 月 
2.3 计算 站: 
2.3,1 forr = 1tohdo 瑟 = 0 
2.3.2 克 = 1; 
2.4 使 罗 , 更 接近 已 ， 
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厂 6 = 责 ( 人 +e( 和 一 厂 (); 
2.5 对 多 te 进行 单位 化 处 理 ; 
2.6 将 局 放 人 SR: 
SK。= SKY 
3 fory = 1tioj do 
= 8SK; 中 各 向 量 的 平均 值 。 


与 算法 5-2 相 比 ,算法 5-3 首 先是 增加 了 额外 的 存储 SK,SK2 ,SR 。 它们 都 是 集合 
变量 。 算 法 5- 3 直接 将 Grossberg 层 的 选 代 式 训 红 改 成 一 次 计算 型 的 ,效率 上 有 所 提高 。 

读者 可 以 进一步 考虑 该 算法 的 优化 等 问题 。 例 如 ,可 以 将 算法 5 - 3 中 的 集合 变量 SKi ， 
SK2:,…,SK, 改 为 其 他 存储 量 更 小 而 且 更 容易 实现 的 变量 。 另 一 个 值得 注意 的 问题 是 关于 算法 
5-3 的 2.6 步 ,在 天 ,激发 K, 时 ,Y, 被 放 人 到 SK。 中 ,这 会 隐藏 一 个 更 为 严重 的 错误 。 如 果 样 
本 (,,Y,) 在 某 一 次 循环 中 激发 的 是 神经 元 K,, 此 时 忌 将 被 放 人 到 SK。 中 ,而 如 果 因 为 玉 。 对 
应 的 权 向 量 在 后 续 的 训练 中 进行 了 较 大 的 改动 , 则 当 下, 被 再 次 输 人 时 ,可 能 会 激发 另 一 个 神经 
元 乓 ,这 里 ;天 o。 按 照 算法 5- 3, 此 时 Y, 除了 被 放 入 SK; 外 , 它 还 曾经 被 放 和 人 SK,。 中 ,而 此 时 
天 对 民 , 对 应 的 研 , 的 影响 可 能 已 被 "淡化 "。 因 此 ,这 要 求 在 将 一 个 理想 输出 向 量 放 人 某 个 SK 
时 做 更 多 的 工作 。 





5.6 补充 说 明 


前 几 节 , 对 CPN 基本 结构 和 基本 算法 进行 了 介绍 ,为 了 叙述 方便 起 见 , 叙 述 中 乱 略 了 一 些 内 
容 。 为 了 使 内 容 较为 完善 ,本 节 对 上 述 讨论 进行 适当 的 扩展 。 

1 全 对 传 网 

首先 ,将 图 5- 1 给 出 的 简单 单 向 CPN 扩展 为 可 以 实现 对 传 的 双向 CPN ,图 5- 3 是 全 对 传 
遇 的 结构 示意 图 。 它 在 经 过 训练 后 ,可 以 实现 信号 的 双向 传送 ,以 实现 相应 的 变换 和 道 变 换 。 

该 网 的 训练 继续 使 用 前 而 讨论 的 CPN 的 训练 算法 。 在 这 里 ,对 训练 样本 { 环 ,Y), 将 其 中 的 
下 和 和 并 置 在 一 起 ,构成 一 个 向 量 , 暂 时 用 XY 表示 。 所 以 ,所 给 的 向 量 既是 对 传 网 的 输入 外 
遇 , 又 是 该 输入 向 量 对 应 的 理想 输出 向 量 。 由 此 意义 来 看 ,在 最 理想 的 情况 下 ,该 网 络 将 实现 一 
个 恒 等 映 射 。 从 图 5 - 3 给 出 的 拓扑 结构 也 可 以 看 出 这 一 点 ;只 要 将 玉 '、Y 调换 一 下 位 置 就 可 以 
了 。 

在 实际 运行 中 ,误差 总 是 存在 的 。 所 以 ,在 XY 中 ,用 所 来 训练 网 络 ,使 它 在 接受 到 里 时 ,可 
以 输出 ,而 用 Y 来 训 绕 网 络 ,使 它 在 接受 到 Y 时 ,可 以 输出 Y 。 

训练 中 , XY 被 从 输入 端 输 人 网 络 , 经 过 Kohonen 层 的 识别 ,被 激发 的 神经 元 对 应 的 
Kohonen 层 的 权 向 量 依据 XY 进行 调整 ,相应 地 ,该 神经 元 对 应 的 Grossberg 层 的 权 向 量 依据 YX 
进行 调整 。 
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图 $-3 全 对 传 网 


在 网 络 完成 学 习 后 ,投入 正常 运行 时 ,给 网 络 输入 向 量 XY ,网 络 将 输出 Y 天 ;如 果 只 输入 
时 ,而 将 下 置 为 0, 这 时 网 络 输出 的 立 于 中 的 Y 就 是 克 的 映射 结果 。 相 应 地 ,如 果 只 输 人 了 ,而 
将 下 兽 为 0, 这 时 网 络 输出 卫 中 的 碟 就 是 Y 的 贞 射 结果 。 

按照 上 述 分 析 , 对 传 网 用 于 数据 的 压缩 和 相应 的 解压 等 所 需要 进行 变换 和 道 变 换 的 处 理应 
该 是 比较 适应 的 。 另 外 ,由 于 网 络 的 Kohonen 层 的 分 类 巧 能 和 Grossberg 层 的 变换 功能 ,该 网 络 
可 以 用 于 问题 的 分 类 表达 ,决策 支持 、 规 划 等 方面 。 

2. 非 简单 工作 方式 问题 

前 面 的 讨论 都 是 基于 这 样 一 个 假设 ;对 一 个 输入 向 量 ,Kohonen 层 的 坤 经 元 有 且 仅 有 一 个 神 
经 元 处 于 激发 态 。 这 一 限制 虽然 使 讨论 变 得 比较 简单 ,但 它 较 大 地 限制 了 网 络 的 功能 。 而 且 当 
掌握 了 CPN 的 基本 结构 和 基本 算法 后 , 略 作 修改 ,就 可 以 去 掉 这 一 限制 。 

对 给 定 的 任意 输 和 人 向量,CPN 的 Kohonen 谋 的 各 神经 元 可 以 给 出 不 同 的 输出 ,然后 ,训练 算 
法 可 以 将 此 输出 作为 对 应 的 神经 元 所 对 应 的 Kohonen 层 .Grossberg 层 的 权 向 量 的 修改 因子 : 输 
出 值 较 大 的 ,表明 该 输入 向量 与 该 神经 元 对 应 的 类 较 接 近 。 所 以 , 它 对 应 的 权 向 量 的 修改 量 就 
大 ;输出 值 较 小 的 ,表明 该 输 和 向量 与 该 神经 元 对 应 的 类 较 远 。 所 以 , 它 对 应 的 权 向 量 的 修改 量 
就 小 。 当 Kohonen 层 的 神经 元 的 激活 函数 为 阔 值 王 数 时 ,神经 元 的 输出 只 能 是 0 或 1, 此 时 所 有 
输出 为 在 的 神经 元 对 庶 的 Kehonen 层 .Grossberg 层 的 权 向 量 被 修改 ,而 所 有 输出 为 0 的 神经 元 
对 庶 的 Kohonen 层 .Grossberg 层 的 权 疝 其 保持 不 变 。 对 应 一 个 输入 ,最 多 只 能 有 兄 个 神经 元 处 
于 激发 态 ,要 由 问题 本 身 去 决定 。 

在 非 简单 工作 方式 下 ,还 有 一 些 细节 问题 。 例 如 ,由 于 分 类 的 需要 ,将 被 要 求 将 非 堆 输 出 的 
神经 元 的 输出 看 成 一 个 向 量 ,并 对 其 进行 单位 化 处 理 。 相 应 的 算法 也 会 有 一 些 细 节 上 的 调整 。 
所 有 这 些 都 留 给 读者 去 思考 ,不 再 详细 叙述 。 当 对 应 一 个 输 人 向量 ,网 络 中 可 以 处 于 汝 发 态 的 神 
经 元 的 个 数 为 1 时 ,网 络 就 退化 成 最 简单 的 形式 。 
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练 习 题 


1. 在 折 扑 结构 上 ,对 传 网 与 -级 HP 网 络 基 相同 的 ,而 实际 上 它们 的 网 络 结构 却 不 同 ,请 叙述 它们 之 阔 的 莽 
别 ， 

2， 氢 述 自 组 织 陕 射 (SOM) 层 执行 的 学 习 策略 和 工作 策略 。 

3. 氢 述 散射 旭 (Ourstar) 层 执行 的 学 习 策 略 和 工作 策略 ， 

4 . 请 指出 自 组 织 陕 射 (SOM) 层 和 散射 性 (Outstar) 层 是 如 何 有 机 地 结合 起 来 构成 对 传 网 ,不 仅 解决 了 多 层 
网 络 的 训练 算法 问题 ,市 且 还 使 对 传 网 的 功能 天 大 地 超过 了 原来 的 单 级 网 络 - 
组 织 瞻 射 (SOM) 层 和 散射 星 (Oursrar) 层 分 别 执行 不 同 的 算法 ,是 否 可 以 把 它们 从 "物理 "上 分 开 ， 
让 它们 独立 运行 , 丙 将 自 组 织 映射 (SOM) 的 和 算 结果 “ 传 给 "散射 星 (Ourstar) ,让 它 对 “数据 "做 进一步 的 处 理 ,从 
而 取得 与 对 传 网 相同 或 者 相似 的 效果 ? 为 什么 ? 

6. 稻 述 对 传 网 训练 中 阿 时 的 顶 处 理 作 用 和 方法。 

7. 分 析 对 传阅 中 散射 虹 (Oursrar) 所 构成 的 Kohonen 层 联接 权 的 初始 化 方法 ,并 对 这 些 方法 进行 适当 的 比 
较 

8， 比 较 算法 5- 2 和 算法 $- 3 ,指出 它们 在 性 能 上 的 差异 。 

.请 较 详细 地 设计 出 算法 5- 3 的 实现 。 

10. 对 传 网 是 否 会 面临 嵩 部 极 小 点 问题 ”为 什么 ? 

11. 受 自 组 织 映 射 (SOM) 和 散射 星 (Outstar) 丰 结合 构成 了 一 个 新 的 人 工 神 经 网 绪 模 型 的 启发 ,是 否 可 以 将 
其 他 的 不 同 模 址 或 者 用 更 多 的 模型 圳 接 (或 者 联合 ) 起 来, 构成 一 种 新 的 网 络 ,以 获得 新 的 系统 性 能 ? 

12. 改造 算法 5 - 3 ,使 它 能 够 满足 网 络 按 非 简单 方式 工作 的 希 要 。 





29， 


第 六 章 ， 韭 确定 方法 


前 三 章 介 绍 的 网 络 所 用 训练 算法 有 一 个 共同 的 特点 :对 应 一 个 样本 的 一 次 选 代 , 算 法 都 蚌 根 
据 相应 样本 ,神经 元 的 状态 甚至 联接 权 的 当前 值 和 联接 权 的 上 一 次 的 调整 值 等 具体 的 值 计算 出 
各 个 联接 权 的 调整 量 。 也 就 是 说 ,算法 所 执行 的 计算 是 确定 的 。 但 是 ,人 脑 所 含 的 神经 元 却 是 按 
照 概率 工作 的 。 在 人 脑 中 ,一 个 神经 元 在 某 一 时 刻 是 处 于 激发 状态 (兴奋 状态 ) 还 是 处 于 抑制 状 
态 是 具有 一 定 的 随机 性 的 。 既 然 人 工 神经 网 络 是 用 来 模拟 人 脑 工 作 的 ,那么 , 它 只 了 可 以 按照 前 
几 章 讨论 的 确定 的 方法 来 计算 联接 权 的 调整 量 外 ,也 应 该 允许 神经 元 “按照 概率 工作 ,使 其 状态 
具有 一 定 的 随机 性 。 

为 了 将 本 章 讲 授 的 方法 与 前 面 讲 授 的 方法 相 区 别 , 将 前 面 讲授 的 方法 叫做 确定 的 方法 。 相 
对 地 ,本 章 将 讲授 的 方法 叫做 非 确定 的 方法 ,又 称 为 统计 方法 (Sratistical Method) 。 

事实 上 ,人们 研究 非 确 定 方法 的 出 发 点 除了 因为 生物 神经 系统 是 按照 机 率 原理 进行 工作 的 
外 ,还 希望 采用 统计 方法 能 获得 更 好 的 效果 ,例如 使 网 络 逃 离 局 部 极 小 点 。 

在 人 工 神经 网 络 中 ,按照 非 确定 的 方法 , 与 联接 权 的 直接 计算 的 确定 方法 相对 应 , 它 还 应 该 
可 以 是 根据 一 定 的 概率 实现 随机 调整 的 ;与 神经 元 的 状态 完全 由 其 所 获得 的 网 络 输入 和 它 的 激 
活 函 数 来 决定 相对 应 ,其 状态 也 可 以 按照 概率 原理 来 工作 ,使 它 的 激发 和 抑制 具有 一 定 的 短 机 
性 。 基 于 这 一 点 ,我 们 说 , 非 确定 的 方法 在 人 工 神经 网 络 的 训练 和 正常 运行 等 两 种 运行 横 式 下 均 
可 以 实现 。 

本 章 将 介绍 统计 网 络 的 基本 训练 算法 模拟 退火 算法 与 收 伍 分 析 ,Cauchy 训练 人工 热 与 临 
界 温度 在 训练 中 的 使 用 .BP 算法 与 Cauchy 训练 的 结合 。 























6.1 基本 的 非 确 定 训练 算 法 


基本 的 非 确定 训练 算法 的 基本 思想 是 :从 所 给 的 网 络 中 "随机 地 选取 ~… 个 联 搂 权 ", 对 该 联接 
权 提出 一 个 " 伪 随 机 调整 量 ”, 当 用 此 调整 量 对 所 选 的 联接 权 进 行 修改 后 ,如 果 “ 被 认为 “这 个 修 
改 改进 了 网 络 的 性 能 ,出 保留 此 调整 ;否则 放弃 本 次 调整 。“ 被 认为 "在 这 里 表示 除了 接受 那些 
直接 改善 网 络 的 性 能 的 调整 外 ,还 应 按照 一 定 的 概率 接受 那些 使 网 络 的 性 能 暂时 变 坏 ,但 在 总 趋 
势 上 却 是 在 改善 网 络 的 性 能 的 调整 。 例 如 ,图 6 - 1 中 所 示 的 系统 从 A 点 向 右 移动 时 , 罕 到 达 站 
点 之 前 所 表现 出 的 情况 就 是 这 样 。 

于 面 我 们 考虑 用 有 导 策 方式 对 一 个 多 级 网 络 进行 训练 。 设 网 络 的 样本 集 为 : 

有 外 和) 人， 
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图 6-1 局 部 极 小 点 示意 图 
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分 别 为 输入 向 量 和 对 应 的 理想 输出 问 量 。 网 络 有 M 屁 , 从 第 1 层 到 第 M 层 的 联接 矩阵 依次 为 
表册 ， 研 四 和， 印 0) 

它 的 拓扑 结构 如 图 5- 2 所 未 。 
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图 6-2 多 级 前 全 网 


算法 6-1 基本 统计 训练 算法 
1 从 样本 集 $ 中 取 一 样本 (天 ,了 ); 
2 将 X 输 入 到 网 络 中 ,计算 出 实际 输出 D; 
3 求 出 网 络 关于 了 .DO 的 误差 测度 正 ; 
4 随机 地 从 厂 吕 ,多 2,…， Ht 中 选择 一 个 联接 权 世人 ); 
5 生成 一 个 小 随机 数 Au 多 ); 
6 用 Am 多 修改 由 入 

7 用 修改 后 的 WG ,全 全 ，W() 重 新 计算 下 对 应 的 O7; 

8 求 出 网 络 关于 Y、O-“ 的 误差 测度 巨 '， 

9 如 果 忆 "< 瑟 , 则 保留 本 次 对 钱 虽 ， 色 人 ,有 09) 的 修改 , 否 刚 ,根据 概率 判断 本 次 修改 
是 否 有 用 ,如 果 认 为 有 用 , 则 保留 本 次 对 克 避 , 研 全 ，, 研 64) 的 入 改 ,如 果 认 为 本 次 修 
改 无 用 , 则 放弃 它 ; 

10 重复 上 述 过 程 ,直到 网 络 满足 要 求 。 
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训练 的 目标 是 ,对 样本 集中 的 所 有 样本 ,网 络 能 获得 最 小 的 误差 浏 度 已 。 所 以 ,网 络 的 训练 
过 程 ,就 是 极 小 化 巨 的 过 程 。 因 此 ,有 时 又 将 网 络 的 误差 测度 函数 叫做 网 络 的 目标 两 数 
(Opiectioe Funcrion)。 一 般 地 ,采用 实际 输出 与 理想 输出 的 方差 之 和 作为 网 络 的 目标 函数 。 

算法 的 第 4 步 是 从 研 人 ,WO ,By(0 中 随机 地 选择 一 个 联 楼 权 zx ,如 昌 第 大 层 的 神经 
匹 有 球 个 ,此 步 则 是 从 

天 关于 二 再 xx 再 + 再 六 古 + 和 + 有 gx 放 

个 变量 中 随机 地 选 一 个 ， 仅 此 一 项 ,就 有 许多 种 选 法 。 可 见 ,本 算法 所 含 的 计算 基 屁 很 太 的 。 

算法 的 第 $ 步 是 要 随机 地 产生 充 久 的 修改 量 Aw 久 。 可 以 用 系统 中 的 念 随机 数 发 生 器 米 
产生 它 , 也 可 以 根据 网 络 当前 的 状态 按照 所 谓 的 能量" 函数 的 分 布 去 计算 它 。 相 比 之 下 ,后 一 种 
方法 留 给 用 户 的 计算 量 要 大 一 些 ,但 它 的 "估计 精度 "一 般 应 该 高 一 些 ,这 对 提高 整个 算法 的 效率 
是 非常 有 好 处 的 。 将 在 下 一 节 介绍 有 关 方 法 。 

算法 第 9 步 , 当 瑟 < 下 不 成 立时 ,按照 绝对 的 标准 ,表明 本 次 修改 使 日 标 阔 数 的 值 增加 了 。 
所 以 ,就 本 次 修改 的 局 部 而 言 , 它 与 算法 是 对 目标 函数 进行 极 小 化 是 相 背 的 。 但 是 ,此 时 算法 并 
不 是 立即 拒绝 接受 这 个 修改 , 它 还 要 根据 概率 判断 本 次 修改 是 否 有 用 。 其 主要 原因 是 ,在 网 络 向 
目标 函数 的 全 局 极 小 点 " 收 伍 的 过 程 中 ,有 时 会 掉 进 * 局 部 极 小 点 "。 为 了 使 网 络 从 局 部 极 小 点 
中 逃离 出 来 ,必须 允许 目标 函数 暂时 被 变 坏 。 

算法 的 第 10 步 是 控制 第 1 步 到 第 9 步 被 重复 执行 直到 网 络 满足 要 求 "。 相 关 的 问题 昨 : 

1. 以 什么 样 的 标准 来 判断 网 络 是 否 满足 要 求 ? 

2. 在 用 一 个 样本 对 网 络 的 某 一 个 联接 权 进 行 修改 后 (该 艇 改 可 能 是 有 效 的 ,也 可 能 是 无 效 
的 ), 是 随机 地 抽取 另 一 个 联接 权 进 行 重复 ,还 是 再 选择 下 -~ 个 样本 进行 重复 ? 

3. 对 一 个 选 定 的 样本 ,每 次 是 否 可 以 选取 若干 个 联接 权 进 行 修改 ? 如 果 可 以 ,还 应 做 什么 
工作 ? 

这 些 问 题 贸 给 读者 去 思考 。 在 这 里 , 先 讨论 严重 影响 着 网 络 训练 是 否 收敛 的 局 部 极 小 点 问 
是 

在 第 4 章 介绍 BRP 算法 时 ,曾经 提 到 过 困扰 网 络 训练 的 局 部 极 小 点 问题 。 这 个 问题 的 难度 在 
于 ,在 对 一 个 M 级 的 多 级 网 络 的 训练 中 ,从 数学 的 角度 讲 , 面 对 的 是 求 一 个 ax Bi + 有 >x 瑟 
+ 丙 x 且 + + Brxmm 元 函数 的 极 小 点 的 问题 。 这 就 是 说 ,算法 竟 在 一 个 极其 复杂 的 高 维 
曲面 上 运行 ,并 寻找 它 的 全 局 极 小 点 。BP 算法 采用 的 是 最 速 下 降 法 , 它 一 旦 使 网 络 掉 进 了 局 部 
极 小 点 ,就 难以 逃离 出 来 。 

图 6- ! 为 局 部 极 小 点 的 尔 意 图 。 费 中 的 小 球 代表 目标 函数 ,如 果 在 训练 过 程 中 ,目标 函数 
落 在 局 部 极 小 点 和, 当 随机 的 权 修 改 量 较 小 时 ,目标 函数 难以 脱离 4 点 所 在 的 四 区 :因为 目标 函 
孝 在 局 部 极 小 点 4 附近 (不 包括 A 点 ) 所 取得 值 大 于 它 在 4 点 的 值 。 所 以 , 当 系统 离开 4 点 
时 ,会 使 得 目标 函数 有 所 上 升 。 此 时 ,车 算法 拒绝 所 有 的 使 目标 函数 上 升 的 联接 权 调 整 , 网络 的 
目标 数 就 只 能 停留 在 4 点 ,永远 无 法 达到 全 局 极 小 点 马 。 其 表现 形式 为 ,网 络 的 精度 离 要 求 
较 远 ,但 网 络 的 目标 函数 却 再 也 无 法 降低 。 
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但 是 ,如 果 权 的 修改 明太 大 ,日 祭 东 数 可 能 会 在 上 .有 两 上 图 来 回 跳动 ( 即 网 络 的 竺 动 ) 而 天 
法 入 在 理 扔 的 极 小 点 上 。 

一 种 较 好 的 办 活 是 :让 算法 从 取 较 大 的 修改 量 并 始 ,然后 逐渐 地 沽 少 这 个 修改 量 ,使 得 网 络 
在 寻找 全 局 极 小 点 区 墩 村 ,有 昵 的 "能力 "从 局 部 极 小 点 跳出 来 ;一 吾 它 进入 到 伞 局 小 点 区 
吉 , 联 接 权 的 修改 重 将 变 得 小 到 人 网络 没 且 够 的 "能 量 "放出 来 。 因 此 ,对 搜 导 全 局 机 小 点 的 间 
题 ,可 以 总 结 出 如 下 思路 : 

| | 坟 小 : 沁 氏 人 点 后 得 准 坦 高 
」 隐 可 和 俐 性 量 。 | 太 大 :时下 在 A .有 几 点 来回 拉 
[ 解 次 办 法 : 权 修改 量 由 大 杰 小 

这 一 点 还 提醒 我 们 .联接 权 的 修改 量 的 大 小 应 该 是 和 网 络 的 “能 量 " 相 关 的 .现在 的 问题 是 ， 
如 何 米 度 量 网 络 在 某 一 时 刻 的 “能 量 "， 又 如 何 利 币 这 个 "能 量 "y 醒 拟 进 炎 竺 法 就 是 "重用 "金属 
热处理 中 的 “退火 "原理 解决 问题 的 。 


6.2 模拟 退火 算法 


按照 前 面 的 介绍 ,网 络 的 日 标 熙 数 为 网 络 的 误差 测度 。 当 误差 测度 较 大 时 .表明 网 络 离 全 局 

极 小 点 比较 远 。 因 此 , 它 应 该 具有 较 大 的 “能 量 ”, 以 便 使 它 可 以 逃离 可 能 “路 过 ”的 局 部 极 小 点 而 
不 宇 于 被 限制 在 那里 ; 当 误 差 测度 较 小 时 ,表明 网 络 已 进入 “全 局 极 小 点 区 域 ", 因 此 它 只 需要 较 
小 的 "能 量 ", 以 使 使 其 下 降 到 全 局 极 小 点 ,并 且 该 "能 量 " 又 是 不 足以 使 它 离开 * 全 局 板 小 点 区 域 ” 
的 。 因 此 ,考虑 使 用 网 络 的 目标 画 数 作为 网 络 能 量 的 测度 。 从 而 有 图 6- 3 所 示 的 分 析 。 
图 6-3 下 半 部 分 简单 地 给 出 了 在 金属 热 加 工 中 金属 的 温度 与 它 所 含 能 量 的 关系 。 在 金属 
热 如 工 过 程 中 , 当 金 属 的 温度 超过 它 的 熔点 (Melring PoinD) 时 ,原子 就 会 激烈 地 随机 运动 。 与 所 
有 其 他 的 物理 系统 类 似 ,原子 的 这 种 运动 趋向 于 寻找 其 能 量 的 极 小 状态 。 在 这 个 能 量 的 变迁 过 
程 中 ,开始 时 ,温度 非常 高 ,使 得 原 闻 共有 很 高 的 能 基 。 随 着 温度 的 不 断 降 低 , 金属 逐渐 冷却 , 侈 
属 中 原子 的 能 量 就 越 来 越 小 ,最 后 达到 所 有 可 能 的 最 低 点 。 这 就 是 全 局 极 小 点 。 这 种 方法 是 通 
过 升 高 湿度 来 所 高 金属 中 原子 的 能 量 ,使 得 这 些 原子 有 能 力 摆脱 其 原来 的 能 量 状态 而 最 后 达到 
一 个 更 加 稳定 的 状态 - - 全 局 极 小 能 量 状态 。 在 金属 的 退火 过 程 中 ,其 能 量 的 状态 分 布 由 如 下 
关系 确定 ; 








PP) me 人 -后 6-1 


其 中 ,P( 五 ) 一 一 系统 处 于 具有 能 最 已 的 状态 的 概率 ; 
一 一 Boltzmann 常数 ; 
了 -一 系统 的 绝对 温度 (Kelvin)。 
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图 6-3 步 长 和 能 量 ,温度 的 关系 


在 温度 足够 高 对 ,上 式 中 的 工 起 主要 作用 ,从 而 对 所 有 的 能 量 状态 瑟 , P( 瑟 ) 均 接近 于 1。 这 表 
明 ,系统 处 于 高 能 量 状态 的 概率 与 处 于 低能 量 状态 的 概率 是 一 样 的 。 但 是 随 着 湿度 的 降低 ,在 


决定 ezp| -党 ) 的 值 时 的 作用 将 越 来 越 明显 :下 越 大 ,P(E) 就 越 小 , 即 系统 处 于 高 能 重 状 态 的 


可 能 性 就 越 小 。 显 然 ,由 该 函数 的 连续 性 知 , 存 在 一 个 温度 了 ,使 得 系统 的 温度 在 不 高 于 了 时 ， 
它 处 于 高 能 量 状 态 的 可 能 人 性 小 于 处 于 低能 其 状态 的 可 能 性 。 当 温度 降 到 0 时 ,系统 就 很 难处 于 
一 个 高 能 量 的 状态 。 事 实 上 ,根据 式 6- 1, 有 : 


(1) 在 高 温情 况 下 , 了 足够 大 ,对 系统 所 能 处 的 任意 能 量 状态 忆 , 随 着 许 趋 近 于 0， 
下 
exp| - 海 ] 将 站 近 于 1 
(2) 在 中 温情 况 下 ,下 比较 小 ,在 到 中 , 刁 的 大 小 对 (下 ) 有 较 大 的 影响 , 设 Bi> E;, 则 多 


> 忌 , 便 得 - 总 < - 在 。 从 而 ,P( E) > P(ED), 即 系统 处 于 高 能 重 状 态 的 可 能 性 小 于 处 于 低 


能 量 状态 的 可 能 性 。 
《3) 在 低温 情况 下 ,了 非常 小 , 设 已 > 无 2、 
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式 中 ， 
E,-E, >0 
所 以 ， 
expf 一 下) > } 
从 而 ， 
1 
BEE 
然而 
lm 二- wm 
3 
所 以 ， 
上 
P(ET) 1 三 
如 届 B7 = 旭 (( 二 可 = ) )- 0 
即 ， 


王 (下 2) 字 忆 ( 开 1) 6-3 

这 就 是 说 , 当 温度 趋 近 于 0 时 ,系统 处 于 低能 量 状态 的 概率 远 远大 于 它 处 于 高 能 量 状态 的 概率 。 
实际 上 ,由 于 系统 处 于 较 低 能 量 状态 的 概率 最 大 为 1, 上 式 雪 明 ,此 时 系统 处 于 较 高 能 量 状态 的 
概率 几乎 为 0。 因 汪 ,在 此 种 情况 下 ,系统 几乎 不 可 能 处 于 高 能 量 状态 。 

从 上 述 分 析 知道 ,如果 将 网 络 的 训练 看 成 是 让 网 络 寻 找 最 低能 量 状态 的 过 程 , 取 网 络 的 甩 标 
甬 数 为 它 的 能 量 函 数 , 再 定义 -- 个 初 值 较 大 的 数 为 人 工 温度 了 。 同 时 ,在 网 络 的 这 个 训练 过 程 
中 ,依据 网 络 的 能 量 和 温度 来 决定 联接 权 的 调整 量 ( 称 为 步 长)。 这 种 做 法 与 金属 的 退火 过 程 
(Annealing) 非 常 相似。 所 以 ,人 们 将 这 种 方法 叫做 模拟 退火 组 合 优化 法 。 

模拟 退火 组 合 优化 法 的 基本 思想 是 :随机 地 为 系统 选择 一 个 初始 状态 | 人 | ,在 此 初始 状态 
下 ,给 系统 一 个 小 的 随机 扰动 Aw 的 ,计算 系统 的 能 量变 化 : 





AE = (lu 的 +Awg 扩 1) -ECiw 久 i 6 一 4 
著 
AFE<0 
则 此 扰动 被 接受 ;如 果 
AE 0 


则 此 抗 动 依据 概率 


. 石 . 


判断 是 否 被 接受 。 如 果 此 扰动 被 接受 , 则 系统 从 状态 ug i 变换 到 状态 | + Ai: 理 
则 ,系统 的 状态 保持 不 变 。 如 此 重复 下 去 。 在 这 个 过 程 中 , 逐 渐 地 降低 温度 了 。 所 得 的 系统 状态 
序列 ;mp 人 ;将 满足 


1= (Dem[- Eee 6-6 
分 布 。 其 巾 


c(T) = 一 上 6-? 


Re 1 
Zeo|- 双 好 把 滞 人 
显然 , 当 取 已 为 网 络 的 实际 输出 和 理想 输出 之 问 的 差 时 ,由 于 网 络 的 实际 输出 是 它 的 
天 义 国 基 末 全 X 天 基 全 于 X 玉 
个 联接 权 we 人 拓 的 函 妆 ,所 以 ,系统 的 能 量 函 数 就 是 zt 访 的 函数 。 


算法 6- 2 模拟 退火 算法 
] 补 妈 化 各 层 的 联接 权 和 阵 Wy ;定义 人 工 温 度 了 的 初 值 ; 
2 对 每 一 个 温度 寺 重 复 如 下 过 程 ; 
2.1 选取 一 个 样本 ,计算 其 输出 与 目标 函数 下 (ie 1); 
2.2 随机 地 从 fuw 信 [中 选取 一 个 思拓 
2.3 按 一 定 的 算法 产生 z 多 的 一 个 调整 量 Axog; 
2.4 按照 ja 名 + Az 反 | 重新 计算 相应 的 输出 和 目标 函数 焉 (jj 吕 六 二 Am 人 |); 
2.5 ARE= 三 什 o 的 二 Am 多 站 -下 (la 六; 
2.6 iLAE>0 then 
2.6,1 按 均 匀 分 布 在 [0, 1] 区 间 取 一 随机 数 ”， 
2.6.2 按 Boltzmann 分 布 计算 接受 本 次 阅 整 的 概率 ， 
【站 《站 
PE 多 + hu 名 D) = cp 全 作 二 和 人 
2.6.3 并 忆 CE(im 信 +Aw 人 多)) < rthen 转 2.2; 
2.7 用 |w 儿 +Anog 代 埠 1wu 人 有 
2.8 并 样本 集中 还 有 未 被 选用 的 样本 then 转 2.41 
3 判断 在 此 刘 度 下 ,检验 Metropolis 抽样 是 否 稳定 。 如 不 稳定 , 则 直接 转 2; 
4 降低 浊 度 T; 
5 如 果 了 足够 小 , 则 结束 ,得 则 , 转 2。 


关于 该 算法 ,有 如 下 几 点 说 明 ， 
1. 算法 的 第 2 步 原则 上 应 该 对 每 一 个 样本 调整 每 …- 个 权 , 调 整 的 顺序 是 随机 的 ;在 叙述 中 ， 
并 本 产 格 给 出 这 个 控制 ,读者 可 以 根据 实际 系统 的 适 行情 况 ,考察 如 何 实现 这 一 部 分 控制 ,会 使 
.6 ， 


算法 的 效率 更 遍 。 
2. 温度 工 的 降低 ,可 以 采用 如 下 公式 ， 
了 = iT 6 -8 
式 中 ， 叫做 冷却 率 ,一 般 情 况 下 可 以 在 [0.8,0.9] 之 半 取 值 。Geman 在 1984 年 曾 缀 证 时: 温度 
的 下 降 必 须 与 时 间 的 对 数 成 反比 ,网络 最 终 才 能 收敛 到 全 局 极 小 点 。 按 照 Geman 的 要 求 ,对 温 
度 了 ,应 采用 如 下 公式 : 
加 石 
二 
式 中 的 上 为 人 工时 间 , Tv 为 温度 的 初 值 。 
3. 了 的 初 值 To 可 以 按照 如 下 方法 设 定 : 
(0D To> EEC;* 邯 : 取 初 始 系统 目标 函数 (能 量 ) 的 值 。 
(2) mm= zE(lwtDD。 即 : 取 初 始 系统 月 标示 数 (能 县 ) 值 的 若干 倍 。 
(3) 按照 经 验 给 出 。 
4. 2.3 中 z 扩 的 调整 量 Amw 护 的 计算 是 比较 麻烦 的 ,可 以 根据 Boltzmann 分 布 或 者 Ciauss 
分 布 来 计算 ,也 订 以 用 其 他 的 方法 。 下 面 讨论 按 Gauss 分 布 进行 计算 的 方法 。 取 如 下 形式 的 
(Gauss 分 布 函数 ( 简 尘 起 见 ,用 符号 to 代替 符号 zu ) ， 





P(UAm) = en 人 (- 笃 】 6 1 
由 于 算法 需要 用 的 是 Aw ,而 不 是 5(Aw) ,所 以 ,必须 根据 上 式 按照 一 定 的 方法 求 出 Aw 。 下 面 
介绍 的 方法 叫做 Monre Carlo 法 。 
2 
对 Ap)=en[ -到 ) 贡 行人 0 到 Aw 的 积分 。 但 是 ,由 于 该 泗 数 无 法 用 常规 方法 进行 积 
分 ,所 以 使 用 数值 积分 法 : 
首先 ,可 以 根据 网 络 的 精度 构 求 , 设 一 个 积分 步 长 8$ ,然后 通过 数值 积分 构造 出 如 下 形式 的 
表格 。 
衷 6~1 联接 权 调整 重 的 数值 积分 
Aue 3 加 
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有 了 上 述 表 格 之 后 , 当 需 槛 一 个 联接 权 的 调整 量 时 ,首先 按照 均匀 分 布 在 [Ci,Cx] 中 随机 地 
取 一 个 值 C ,然后 ,从 
CCaCaeCN| 
中 选取 Cx 满足 ， 
IC-C=mniiC-el ce C-Gleey IGCC 6- 
.77 


这 个 C 对 应 的 入 就 是 所 需要 的 联接 权 调 整 基 Am 。 
6.3 Cauchy 训练 


在 荆 节 给 出 的 模拟 退火 算法 中 ,使 用 的 是 依照 (yauss 分 布 来 确定 联接 权 的 调整 量 的 方法 。 
Gauss 分 布 与 boltzmann 分 布 类 似 ,加 上 其 他 其 有 类 似 特 征 的 一 些 分 布 ,它们 对 应 的 训练 被 称 为 
Boltzmann 训练 。1987 年 ,S，Szu 和 R，Hartley 提出 用 (Cauchy 分 布 去 取代 Boltzmann 分 布 ， 
Cauchy 分 布 的 … 般 形式 为 

工 
全 十 六 

为 了 叙述 方便 起 见 , 称 按照 Cauchy 分 布 来 确定 联接 权 的 调整 量 的 训练 为 Cauchy 训练 。 用 
Cauchy 分 布 替代 Boltzmann 分 布 ,可 以 从 三 个 方面 获得 好 处 。 

首先 ,对 于 i Cl,CN] 中 的 任意 一 个 C, 它 按照 Cauchy 分 布 所 能 取 到 的 联接 权 的 调整 量 要 大 
于 按 蛙 Boltzmann 分 布 所 能 取 到 的 联接 权 的 油 整 量 。 这 就 是 说 .同样 的 条 件 下 ,在 Canchy 训练 
中 , 取 到 较 大 的 联接 权 调 整 量 的 机 会 要 多 于 Boltzmann 训练 。 显 然 ,到 到 较 大 的 联接 权 调 整 量 的 
机 会 多 ,训练 的 速度 就 快 ,算法 的 效率 就 高 。 

其 次 ,用 Cauchy 分 布 取代 Boltzmann 分 布 后 ,温度 可 以 下 降 得 更 快 。 这 时 ,温度 的 下 降 变 得 
与 时 间 成 反比 : 





pz) =- 6- 12 


了 = 6- 13 
1 + 
这 与 Boltzmann 训练 中 的 温度 的 下 降 必 须 与 时 间 的 对 数 成 反比 ( 式 6-9) 相 比 , 进 一 步 大 大 
地 提高 了 训练 的 速度 。 


由 于 Cauchy 分 布 是 遵从 式 6- 12 的 ,而 该 范 数 可 以 用 常规 的 方法 进行 积分 运算 ; 


_T[Laean 斌 全 
= T[ 下 aretan 示 ] 
本 
= arctan 开 
即 
P(Azm) = arctan 人 6=-14 
从 而 有 
en(Plae) = 后 


所 以 


Ai Tianf(P(Am)) 和 一 15 
按照 道 常 的 习惯 ,可 以 加 上 学 习 率 w ,此 时 有 : 
Au = aJtan(P(Az)) 6 


由 于 上 式 中 的 P(Ate) 是 积分 的 结果 ,这 使 得 Monte Carlo 法 在 这 里 变 得 非常 简单 了 :在 (0， 
阳 中 按照 均匀 分 布 随机 地 取 一 个 数 作为 P(Aw) .再 取 当 前 的 温度 ,就 可 以 直接 计算 出 Azw， 

Cauchy 训练 算法 可 以 通过 将 算法 6- 2 中 的 Bolrzmann 分 布 换 成 相应 的 Cauchy 分 布 就 可 以 
实现 了 。 


6.4 相关 的 几 个 问题 


前 见 节 介绍 了 人 工 神经 网 络 基本 的 非 确定 训练 方法 ,实际 上 ,还 有 许多 相关 的 问题 。 本 节 将 
讨论 其 中 作者 认为 比较 重要 的 几 个 问题 。 它 们 包括 ; Beltzmann 机 .人 工 热 问题 .BP 算法 与 
Cauchy 训练 的 结合 问题 。 目 的 在 于 使 读者 对 上 述 内 容 能 更 好 地 理解 和 应 用 。 

1. Boltzmann 机 

在 本 章 中 ,介绍 了 多 居 网 络 的 Boltzmann 训练 ,虽然 Boltzmann 机 (BM) 也 是 一 种 用 非 确定 的 
方法 进行 训练 的 人 工 神经 网 络 模 怨 ,而且 Boltzmann 分 布 虽然 在 Boltzmann 训练 和 Boltzmann 机 
都 起 着 重要 的 作用 ,但 它们 是 不 回 的 。 

首先 ,该 模型 中 的 神经 元 与 前 面 叙述 的 神经 元 有 所 不 同 。 在 这 里 ,每 个 神经 元 可 以 有 一 个 特 
殊 的 闭 值 ,用 来 限制 神经 元 所 获得 的 激活 值 。 对 神经 元 AN, , 它 所 获得 的 激活 值 为 














Heb 一 > STR 一 作 石 -17 


如 图 6-4 所 示 。 式 中 的 马 为 阔 值 。 这 个 盖 值 也 可 以 不 存在 。 在 没有 冰 值 的 情况 下 ,神经 元 所 
获 得 的 激活 值 为 


7e6 二 站 站 56- 17 
神经 元 的 状态 按照 _ 定 的 概率 发 生变 化 。。 = 1 的 概率 为 
忆 = 一 6 一 18 
1+ exp| - 史 


其 次 ,从 网 络 的 联接 结构 来 看 . Boltzmann 机 也 与 前 面 叙 述 的 基本 网 络 模 理 有 所 不 同 。 在 
Boftemann 机 中 ,每 对 神经 元 之 问 都 存在 着 信息 的 双向 传送 。 一 般 地 ,将 双向 的 联接 权 的 大 小 取 
为 相等 的 。 但 是 , 网络 中 不 允许 存在 从 神经 元 自身 到 自身 的 信息 反馈 。 所 以 ,Boltzmann 机 的 联 
接 权 所 和 阵 是 一 个 对 角 线 元 素 为 0 的 对 称 矩阵 。 由 于 其 神经 元 之 间 都 有 联接 ,所 以 ,有 时 候 又 将 这 
种 网 络 称 为 全 互联 的 。 一 般 用 下 列 式 子 作为 Boltzmann 机 的 目标 函数 (能 量 函 数 ) : 


王 - esoigi 十 和 0 加 6 -19 
2 1 





图 6-4 Boltamann 机 中 的 神经 元 


将 该 冰 数 取 负 , 则 可 以 用 米 表 示 网 络 的 和 谐 一 致 性 ， 所 以 .有 时 又 将 下 式 称 为 “一致 性 昂 数 ": 
下 = 一 > ouolo 一 ob， 6 一 20 


Beltamann 机 神经 元 之 间 的 全 互联 ,使 它 成 为 了 一 种 含有 循环 的 网 络 。 因 此 ,有 关 Boltzmann 
机 的 训练 算法 等 问题 ,将 留 在 介绍 循环 网 络 时 进行 讨论 。 

2. 人 工 热 问题 

虽然 Cauchy 分 布 给 训练 取得 较 大 的 联接 权 收 改 量 提供 了 更 多 的 机 会 ,而 且 它 已 经 使 得 浊 度 
的 下 降 速度 达到 了 与 时 间 成 反比 的 程度 ,但 是 ,该 训练 算法 所 需要 的 时 间 还 是 很 长 。 因 此 ,继续 
寻找 更 快速 的 算法 成 为 人 们 探索 的 方向 之 一 。 

无 论 是 Boltztnann 训练 ,还 是 Cauehy 训练 ,都 是 在 模拟 金属 的 退火 过 程 。 因 此 ,研究 者 们 感 
到 ,继续 从 热力 学 中 寻找 适当 的 技术 来 进一步 提高 算法 的 速度 是 有 可 能 的 。 

在 仔细 研究 金属 的 退火 过 程 中 人 们 发 现 , 该 过 程 表 现 出 "离散 的 "能 量变 化 的 现象 。 这 些 离 
获 的 能 量变 化 ,将 退火 过 程 分 成 一 个 一 个 的 “阶段 " 。 实际 上 ,在 一 个 阶段 到 下 一 个 阶段 的 过 滤 
处 ,一 种 特殊 的 热 可 能 有 一 个 相当 大 的 既 变 。 这 里 的 特殊 热 被 定义 为 :温度 关于 能 量 的 变化 率 。 
特 啤 热 的 这 种 变化 ,可 以 与 系统 落 人 能 量 的 局 部 极 小 点 相对 应 。 为 了 防止 系统 陷 人 这 样 的 局 部 
极 小 点 ,应 该 在 能 量 从 一 个 阶段 聊 变 到 下 一 个 阶段 的 温度 出 现时 ,对 网 络 的 “温度 ”的 下 降 速度 加 
以 更 加 严格 的 控制 。 此 时 的 下 降 速度 应 该 大 大 地 低 于 网 络 在 其 他 时 刻 的 “温度 "的 变化 率 。 我 们 
将 系统 在 其 能 攻 跃 蛮 的 边界 处 的 温度 叫做 临界 温度 ,系统 的 临界 温度 是 网 络 训练 中 需要 特别 关 
注 的 温度 - 

与 此 相对 应 ,作为 一 个 复杂 的 非 线 性 系统 ,人 工 神经 网 络 在 训练 过 程 中 也 会 经 过 相似 的 阶 
段 。 可 以 依照 热力 学 中 特殊 热 的 概念 ,定义 一 个 人 工 特殊 热 (也 可 以 叫做 * 伪 特殊 热 ")。 在 能 量 
阶段 变化 的 边界 点 ,这 个 人 工 特殊 热 也 会 有 一 个 非常 激烈 的 变化 。 其 定义 为 ;系统 的 人 工 温度 关 
于 系统 的 能 量 函 赦 ( 目 标 函 数 ) 的 平均 变化 率 。 在 系统 训练 的 开始 阶段 (高 温 期 ) 和 较 后 的 阶段 
(低温 期 ) ,能 量变 化 比较 平稳 ,这 个 时 期 的 人 工 特殊 热 几 乎 为 常数 。 相 当 于 在 这 两 个 阶段 ,系统 
可 能 距离 局 部 极 小 点 比较 远 。 因 而 ,在 这 闫 个 阶段 ,温度 可 以 变化 得 快 一 些 , 以 较 好 地 提高 系统 
的 训练 速度 。 

与 此 相反 , 当 系 统 处 于 临界 温度 处 的 时 候 ,温度 的 小 昌 下 降 .会 引起 能 景 函 数值 的 较 大 变化 ， 
相当 于 系统 正 处 于 一 个 局 部 极 小 点 附近 。 因 而 ,算法 在 这 些 “关口 "应 使 温度 缓 俺 下降。 如 图 6 
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-| 所 示 , 当 系统 处 于 局 部 极 小 点 4 附近 时 ,如果 温 度 下 降 过 快 , 它 会 被 陷 在 4 点 。 这 样 以 来 ， 
系统 就 无 法 达到 全 局 极 小 点 日 。 

显然 ,这 类 临界 温度 点 是 可 以 通过 考察 所 定义 的 人 工 特殊 热 的 变化 情况 得 到 的 。 

3. BP 算法 与 Cauehy 训练 的 结合 

Cauchy 训练 的 速度 比 Boltzmann 训练 快 ,但 是 与 BP 算法 相 比 , 它 又 是 比较 袋 的。 人们 已 经 
给 出 的 测试 结果 表明 ,Cauehy 训练 所 需 花费 的 时 间 大 约 是 BP 算法 所 需 花 费时 间 的 100 倍 :其 
原因 在 于 BP 算法 总 是 沿 着 极 小 化 能 量 函 数 的 方向 来 调整 联接 权 , 而 且 每 次 调整 都 是 确定 的 。 
然而 ,在 Cauchy 训练 中 , 权 的 调整 是 随机 的 。 同 时 ,由 于 这 种 调整 的 随机 性 和 试探 性 ,还 需要 判 
定 一 个 拟 进行 的 调整 是 否 为 有 效 的 - 所 以 ,在 很 多 时 候 , 所 进行 的 调整 是 失败 的 一 一 它 可 能 被 放 
弃 。 在 它 未 被 放弃 时 , 它 又 可 能 是 背离 霹 找 全 局 极 小 点 的 总 日 标的 。 而 且 , 在 Canchy 训练 中 ,有 
时 可 能 会 获得 过 大 的 调整 量 ,可 能 产生 过 大 的 联接 权 , 这 又 再 能 使 网 络 瘫 痰 。 

BP 算法 的 问题 是 ,由 于 其 收 伍 让 明 使 用 的 是 无 穷 小 的 联接 权 修 改 量 ,这 种 无 穷 小 的 修改 量 
就 需 示 着 无 穷 长 的 训练 时 间 。 这 是 难以 用 算法 实现 的 ,算法 实现 的 只 是 相应 的 有 穷 近似 。 所 以 ， 
它 的 收敛 性 并 没有 充分 的 保证 。 而 且 , 局 部 极 小 点 问题 ,网络 的 疙 疾 问 题 ,也 是 困扰 BP 算法 的 
两 个 大 问题 。 

Cauchy 训练 的 最 大 长 处 是 , 它 有 可 能 使 网 络 逃 离 局 部 极 小 点 。 

一 个 比较 好 的 办 法 是 将 这 两 种 算法 结合 起 来 ,构成 一 个 新 的 算法 。 它 既 能 兼顾 到 BP 算法 
的 联接 权 的 调整 量 是 确定 的 所 带 来 的 优点 ,又 能 莫 顾 到 Cauehy 算法 中 联接 权 调 整 ( 量 ) 的 随机 性 
和 和 试探 性 所 带 来 的 可 以 从 局 部 极 小 点 逃离 出 来 的 优点 。 因 此 ,BP 算法 与 Cauchy 算法 的 结合 ,可 
以 采用 将 一 个 联接 权 的 修改 量 分 成 两 部 分 的 办 法 来 实现 ,由 BP 算法 提供 直接 计算 部 分 ,由 
Cauchy 算法 提供 随机 部 分 。 

对 网 络 中 的 神经 元 AN, 与 AN 之 间 的 联接 权 ww, 用 下 式 进行 调整 : 

人 
Ai = el 人 Bot+pow)+(l-oaw 们 6 一 外 

式 中 Auw 信 为 根据 Cauchy 算法 所 获得 的 联接 权 xy 的 调整 量 ,Aw 为 wy 的 上 一 次 的 修改 量 ;is 
E(0,1) 为 学 可 率 , 在 这 里 , 它 癌 时 又 起 到 “直接 部 分 "和 “随机 部 分 "的 权重 分 配 的 作用 ;8E (0， 
]) ,为 冲 量 系 数 。 











顺便 应 该 提 到 , 随 着 训练 的 进行 ,网 络 的 联接 权 可 能 会 变 得 很 大 ,使 得 网 络 陷 人 次 疾 ， 为 了 
解决 此 问题 , 当 发 现 神经 元 的 网 络 输入 使 它 处 于 亿 和 的 边缘 时 ,应 该 执行 对 网 络 联接 权 的 压缩 。 
例如 ,如 果 想 将 联接 权 压 缩 在 ( ~- e,a) 以 内 ,PPD. 到 asserman 兽 给 出 如 下 建议 公式 : 

24 
让 
”+ en 人- 区] 
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练 习 题 


1 ， 简单 叙述 人 工 神经 网 络 的 确定 方法 和 非 确 定 方法 .并 对 它们 的 特点 进行 比较 。 

2 级 述 人 工 神经 网 络 非 确定 的 训练 方法 的 基本 思 相 

3. 算法 6- 1 的 第 10 步 中 ,要 求 重 复 执行 第 ! 步 到 第 9 步 ， 直 到 网 络 满足 机 求 "， 你 如 何 考虑 解决 与 之 相 
关 的 二 个 和 问题; 

(1) 以 什么 样 的 标准 来 判断 网 络 是 否 满足 要 求 ? 

(2) 在 用 一 个 样本 对 网 络 的 某 一 个 联接 权 进 行 修改 后 (该 修改 可 能 是 有 效 的 ,也 可 能 是 无 效 的 ), 是 随机 地 
抽取 另 一 个 联接 权 进 行 重复 , 还 是 再 选择 下 一 个 样本 进行 重复 ? 

(3) 对 一 个 选 定 的 样本 ,每 次 是 否 可 以 选取 若干 个 联接 权 进 行 修改 ? 如 果 可 以 ,还 应 微 什么 工作 ? 

4. 难 考 图 6 -3 所 给 的 分 析 , 弄 清楚 人们 是 如 何 起 到 将 模拟 退火 用 于 人 工 神经 网 络 的 训练 的 。 如 果 可 能 ,请 
你 给 出 你 认为 模拟 退火 被 用 于 人 工 神经 网 络 训练 的 更 为 合理 的 探索 过 程 ， 

5, 级 述 算法 6 一 2 的 基本 思想 。 

6. 设计 出 算法 6- 2 的 实现 程序 。 

7. 给 出 Cauchy 训练 算法 。 

8. 指出 Behzmann 训练 与 Beltzmann 机 的 不 同 之 处 。 

9 请 在 算法 6 一 2 中 加 入 人 工 热 ,实施 对 训练 过 程 的 控制 ， 

10, 请 设计 一 个 算法 ,将 Cauchy 训练 与 BP 算法 结合 起 来 
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第 七 章 循环 网 络 


前 面 四 章 , 讨 论 的 都 是 非 循 环 网 。 在 非 循 环 网 中 ,信息 被 从 输入 端 训 在 网 上 ,通过 网 络 的 逐 
级 加 工 ,最 后 由 输 册 端 输 册 。 这 个 过 程 中 不 存在 信号 的 反馈 。 对 这 种 网 络 来 说 ,无论 输 人 什么 样 
的 信息 , 它 都 会 给 出 一 个 确定 的 输出 ,水管 这 个 输出 是 否 是 用 户 所 需 灾 的 。 一 般 来 说 ,如 果 输 入 
是 被 训练 时 所 用 的 样本 集 所 覆盖 的 ,而 且 网 络 的 训练 是 成 功 的 , 则 它 会 给 出 一 个 用 户 满意 的 和 输 
出 ; 香 则 ,网 络 的 输出 很 可 能 是 难以 令 人 满意 的 。 但 是 ,无 论 怎样 ,相应 的 输出 总 是 确定 的 。 

然而 在 循环 网 中 ,网 络 在 接收 到 一 个 信和 号 后 , 它 要 让 这 个 信号 在 网 络 中 经 过 皮 反 复 复 的 循环 
处 理 ,直到 变化 停止 ,或 者 变化 的 幅度 足够 小 时 ,了 网 络 在 此 时 刻 给 出 的 相应 输出 才能 算是 它 的 输 
出 。 如 果 对 给 定 的 输入 ,网 络 都 能 给 出 一 个 相应 的 输出 , 则 称 此 网 是 稳定 的 。 如 果 它 在 接 到 信和 号 
以 后 ,输出 端 不 断 地 出 现 新 的 信号 ,也 就 是 说 , 它 的 输出 总 保持 有 超出 给 定 范围 的 变化 , 则 认为 网 
络 昆 相 稳定 的 。 显 然 ,对 一 个 给 定 的 输入 ,网 络 输出 的 不 断 变化 是 由 它 的 反馈 信号 引起 的 。 

对 循环 网 络 来 说 ,理想 的 状况 是 ,在 信号 被 输入 后 ,信号 的 变化 遵循 如 下 规律 ; 


强烈 变化 一 一 > 较 明 的 变化 -一 -> 不 变化 

这 就 是 说 ,网 络 对 输 和 信号 进行 的 处 理 是 一 个 逐渐 “修复 "加 强 "的 过 程 。 随 着 “修复 "加 
强 "的 不 断 进展 ,网 络 输出 端的 信息 逐渐 达到 用 户 的 要 求 ,此 时 信号 也 就 不 再 会 有 更 大 的 变化 。 

由 于 Hopfield 对 循环 网 络 的 贡献 ,因此 ,在 这 里 将 循环 网 络 称 为 Hopfield 网 。 

本 章 将 讨论 循环 网 络 的 组 织 ,功能 与 运行 算法 。 包 括 实现 自 相 联 映射 的 Hopfild 网 络 和 实 
现 异 相 联 蚁 庙 的 相 联 存 鱼 器 。 分 7 节 介绍 如 下 内 容 :Hopfield 网 络 实现 的 自 相 联 存储 ;稳定 性 分 
析 ; 统 计 Hopfield 网 与 Bohzmann 机 ;基本 双 联 存储 器 的 结构 与 训练 ;其 他 的 几 种 相 联 存储 网 络 。 
在 本 章 的 最 后 ,作为 一 个 例子 ,介绍 如 何 使 用 Hopfield 网 去 解决 一个 已 经 被 证 明 是 NP 的 问题 
一 一 TSP 问题 。 





7.1 钳 环 网 络 的 组 织 


在 Hopfield 网 络 中 ,每 对 神经 元 之 问 都 是 互联 的 ,每 个 神经 元 都 没有 到 自身 的 联接 。 也 就 是 

说 ,Hopfield 网 是 一 个 全 互联 的 网 络 。 假 设 网 络 的 神经 元 的 个 数 为 疡 , 输 人 向 量 的 维 数 为 ” ,输出 

向 量 的 维 数 为 内 。 对 应 于 输 人 向 量 和 输出 向 量 , 网 络 中 有 "= 个 神经 元 被 指定 为 直接 接受 输入 的 

神经 元 ,简称 它们 为 输入 神经 元 。 同 时 ,有 mm 个 神经 元 被 指定 为 输出 计算 结果 的 神经 元 , 奖 似 

地 ,简称 它们 为 输出 神经 元 。 一 个 网 络 中 的 输入 神经 元 和 输出 神经 元 是 可 以 重 本 的。 为 了 清晰 

起 见 ,图 7-1 只 给 出 了 输入 神经 元 和 输出 神经 元 不 重 登 的 情况 ,输入 神经 元 和 输出 神经 元 有 重 
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登 的 情况 的 处 理 是 类 似 的 ,相应 的 讨论 完全 适应 。 在 此 网 络 中 ,显然 有 








只 蒂 于 磅 更 裕 下 网 芝 ] 
其 中 , 当 
有 二 说 二 下 7 一 1 
时 ,网 络 退化 成 最 简单 的 形式 。 称 之 为 最 基本 的 Hopfield 网 络 


在 网 络 的 非 简单 形式 下 ,除了 输入 神经 元 和 输出 神经 元 外 ,其 他 神经 元 就 是 该 网 络 的 隐藏 神 
经 元 。 当 式 7- 1 成 立时 ,网 络 中 就 不 存在 隐藏 的 神经 元 。 
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图 7-1 全 互联 网 络 


在 下 面 的 叙述 中 , 设 : 网 络 的 神经 元 AN, 与 神经 元 AN; 之 间 的 联接 权 为 wj, 网 络 的 联接 权 
抢 阵 为 
王 = jos 
由 于 网 络 中 的 所 有 神经 元 都 不 包含 到 自身 的 直接 联接 ,所 以 ,在 图 7- ! 中 ,用 虚线 表示 这 类 联 
接 。 相 应 地 ,在 联接 抢 阵 环 中 ,对 所 有 的 iiz=0 成 立 。 此 时 ,仍然 用 习 和 QO 分 别 表示 网 络 的 
输 和 向 量 和 输出 向 量 ; 
时 = (zlz2yZa) 
四 二 (ol;oi om) 
对 循环 网 来 说 , 另 一 个 必须 确定 的 问题 是 ,网 络 中 神经 元 的 状态 采用 的 是 什么 样 的 变换 方 
式 。 实 际 上 ,与 所 有 其 他 的 人 工 神经 网 络 模型 相间 ,在 上 述 循环 网 络 中 ,神经 元 的 状态 的 变化 也 
有 两 种 不 同 的 形式 :第 一 种 ,各 个 神经 元 的 状态 的 变化 是 非 同步 的 。 在 这 种 方法 中 ,由 于 神经 元 
的 状态 姑 随机 离散 变化 的 ,所 以 ,研究 起 来 比较 复杂 ;第 二 种 ,各 个 神经 元 的 状态 的 变化 是 同步 
的 。 在 这 种 方法 中 ,所 有 的 神经 元 按照 同一 个 系统 时 钟 同步 变换 状态 。 因 为 主要 是 为 了 说 明 这 
种 网 络 的 运行 机 理 , 所 以 ,在 下 面 的 讨论 中 ,仍然 假定 网 络 是 按 第 二 种 方式 运行 的 。 此 外 ,在 这 蛙 
还 假定 式 7- !1 成 立 , 即 网 络 到 最 简单 的 形式 , 即 最 基本 的 Hopfield 网 络 。 并 且 假 定 在 一 个 输 人 
.84 . 


加 在 网 络 上 后 ,直到 网 络 给 出 … 个 稳定 的 输出 , 它 -~ 韦 加 在 网 络 上 。 所 以 对 于 网 络 中 的 任意 -- 个 
神经 元 AN (LSj 所 n) , 它 的 网 络 输入 : 


上 


二 - 
ED 二 了 
站 


同时 ,各 神经 元 的 激活 函数 为 如 下 形式 的 国 值 相 数 ， 
人 计 ze 后 六 由 


o=10 让 ne 执 电 了 -3 
吕 iner = 名 
式 中 ,9 为 神经 元 4N, 的 闭 值 。 网 7- 2 所 示 为 最 基本 的 Hopfield 网 络 。 
2 


























图 7-2 最 基本 的 Hopfield 网络 


希望 该 网 络 可 以 实现 联想 功能 ,并 且 希 望 在 联想 过 程 中 实现 对 信息 的 “修复 "和 "和 加强"。 扫 
照 这 种 希望 ,就 可 以 要 求 网 络 的 联接 扼 阵 存放 的 是 一 组 这 样 的 样本 : 它 的 输入 向 量 和 输出 向 量 是 
相同 的 向 量 , 即 ,和 = 了。 因此 可 以 按 如 下 方法 确定 它 的 联接 权 和 矩阵 ; 

设 网 络 训练 用 的 样本 集 为 





8 = | YY 
对 ;天 六 取 
凶 记 二 六 3 了 -3 
对 1sisw 取 和 
= 了 -4 
式 中 ,和 表 示 中 的 第 # 个 元 素 。 下 面 的 宛 阵 表示 形式 会 使 我 们 有 更 清楚 的 理解 。 取 
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由 式 ?7-3 知 ,对 任意 的 ;和 j(07 天 门 ， 


Ts 二 冯 2aw = 2s 一 

所 以 , 寻 是 一 个 对 角 线 元 素 为 0 的 对 称 矩 阵 。 

与 前 面 遇 到 过 的 训练 方法 不 同 ,在 这 里 是 根据 样本 集 直 接地 计算 出 网 络 的 磋 接 窍 阵 。 显 然 ， 
这 种 训练 方法 效率 要 高 许多 。 另 外 ,由 于 鲜 是 各 个 样本 向 量 自身 的 外 积 的 和 ,所 以 ,在 时 称 该 网 
络 实现 的 是 自 相 联 映射 。 

与 所 述 的 二 值 系统 相对 应 , 当 将 神经 元 的 激活 函数 改 为 * 形 划 数 后 ,系统 就 成 为 一 个 连续 系 
统 。 

参照 前 面 讲 过 的 多 级 网 络 的 组 织 方式 ,还 可 以 将 循环 网 络 中 的 神经 元 分 层 进行 组 织 , 以 构成 
一 个 多 级 循环 网 络 。 一 般 地 ,在 一 个 多 级 循环 网 络 中 ,除了 输出 层 的 输出 向 量 被 反馈 刘 输 入 层 
外 ,其 他 各 层 之 间 的 信号 传送 均 执行 旭 下 规定 :第 半 - 1 层 神经 元 的 输出 经 过 第 ;个 连接 息 阵 被 
送 和 人 第; 层 。 一 般 不 考虑 越 层 的 信和 号 传送 和 中 间 的 信号 反馈 。 志 不 考 患 同 层 的 神经 元 之 间 进 行 
信号 的 直接 传送 , 即 : 在 同 层 内 的 神经 元 之 间 不 设置 直接 的 连接 。 当 然 , 这 并 不 是 说 这 种 联接 在 
多 层 循环 网 中 是 不 允许 的 。 在 特殊 的 情况 下 , 这 种 层 内 神经 元 之 间 的 自 接连 接 可 以 用 来 实现 导 
内 神经 元 之 间 的 竞争 ,或 者 层 内 神经 元 分 组 内 的 相互 激活 。 
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有 关 多 级 循环 网 的 结构 等 ,将 从 7.4 节 开始 进行 介绍 。 
7.2 稳定 性 分 析 


网 络 的 稳定 性 是 与 收 伍 性 不 同 的 问题 。 如 前 所 述 , 收 伍 性 是 指 在 网 络 的 训练 过 程 中 ,算法 最 
终 能 使 网 络 变 得 对 训练 样本 集中 的 所 有 样本 都 能 给 出 误差 精度 要 求 范围 内 的 结果 。 而 网 络 的 稳 
定性 则 是 指 ,在 网 络 的 运行 中 ,对 一 个 输 人 向量 ,由 于 网 络 中 信号 反馈 的 作用 ,经 过 网 络 不 断 地 
“修复 " "加强 ”, 最 后 能 给 出 对 应该 输 和 人 的 适当 的 输出 向 量 。 这 是 循环 网 络 中 特有 的 问题 。 如 果 
对 一 个 给 定 的 输入 向 量 ,网 络 无 休止 地 进行 "修复 " "加强 ”, 而 无 法 给 出 一 个 适当 的 输出 ,那么 就 
无 法 使 用 该 网 络 。 因 此 ,稳定 性 问题 是 困扰 循环 网 络 的 一 个 非常 重要 的 问题 。 
1983 年 ,Cohen 和 Grosshberg 证 明了 Hopfield 网 络 的 稳定 性 定理 : 
如 果 Hopfield 网 络 的 联接 权 和 矩阵 是 对 角 线 为 0 的 对 称 矩 阵 , 则 它 是 稳定 的 。 
下 面 ,按照 7.1 节 所 给 的 假设 来 证 明 这 个 结论 。 
在 前 面 的 章节 中 讨论 网 络 训练 的 收敛 性 问题 时 ,曾经 给 网 络 定义 了 一 个 能 量 函 数 (又 被 称 为 
目标 丽 数 ) ,网 络 的 训练 过 程 被 看 成 是 进行 网 络 能 量 函 数 的 极 小 化 的 过 程 。 参 考 这 种 做 法 ,我 们 
认为 ,在 Hopfield 网 络 的 运行 过 程 中 也 应 该 有 一 个 类 似 的 能 量 函 数 。 如 有 果 网 络 的 运行 是 稳定 的 ， 
则 对 任意 一 个 输 和 向量 ,在 网 络 的 运行 过 程 中 ,这 个 目标 函数 是 广义 下 降 的 。 这 样 , 随 着 网 络 的 
运行 ,目标 函数 逐渐 碱 小 ,最 终 达 到 极 小 点 。 而 当 网 络 运行 到 它 的 能 量 郴 数 达 到 极 小 点 时 ,网 络 
的 状态 就 不 再 发 生 新 的 变化 , 则 此 时 网 络 的 输出 就 是 输 和 向量 相 应 的 输出 向 量 。 也 就 是 ,将 判定 
网 络 运行 的 稳定 性 问题 ,转换 成 了 考察 网 络 能 量 郴 数 是 否 能 够 下 降 到 极 小 点 的 问题 。 
可 以 用 鞠 名 的 Lyapunov 函数 作为 Hopfield 网 络 的 能 量 冰 数 ， 
昨 入 看 用 
下 = 2 之 wpp - 官 or 押 7-6 
此 范 数 中 的 各 项 按照 如 下 的 意义 表达 出 关于 网 络 的 稳定 性 度量 。 
oo :该 项 是 网 络 的 一 到 性 测度 。 当 神经 元 AN, .AN; 的 输出 与 uu 一 致 时 , 它 对 下 的 贡献 
将 姨 一 个 负数 ,起 到 减 小 能 量 两 数 值 的 作用 ;而 当 神 经 元 AN: .AN 的 输出 与 ww 不一致 时 , 它 对 
王 的 贡献 将 是 一 个 正 数 ,起 到 增加 能 量 函数 值 的 作用 。 
事实 上 , 当 神 经 元 ANi 4Ni 的 输出 是 同 号 的 时 候 ,它们 应 该 表现 出 是 互相 支持 的 。 所 以 ， 
此 时 应 该 有 res >0。 这 使 得 esooi >0, 从 而 给 忆 的 贡献 是 一 个 负数 。 如 果 此 时 zuj<0, 表 明神 
经 元 4N; .ANi 的 输出 状态 与 rwy<0 表现 出 的 “互相 抑制 " 相 和 矛 盾 , 所 以 此 时 它 对 王 的 贡献 是 一 
个 下 数 。 
当 神 经 元 ANi .4N 的 输出 是 异 号 的 时 候 ,它们 应 该 表现 出 是 互相 克制 的 。 所 以 ,此 时 应 该 
有 wp<% 人 这 使 得 仍然 有 wuoio >0, 从 而 给 王 的 贡献 还 是 一 个 负数 。 但 是 ,如 果 此 时 rs >0, 圳 
明神 经 元 AN 、AN; 的 输出 状态 与 网 络 的 要 求 (它们 应 该 互相 拖 制 ) 不 相符 ,此 时 ,rsoo&0, 从 
而 沪 项 对 巨 的 贡献 是 一 个 正 数 。 
xi0i: 表 示 同 一 个 神经 元 的 输入 和 它 的 输出 的 一 致 性 测度 。 显 然 ,希望 对 同一 个 神经 元 来 说 , 
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它 的 输出 应 该 与 它 的 输入 相 一 致 。 实 际 上 ,就 是 希望 网 络 能 够 消除 这 些 不 一 致 。 所 以 ,输入 向 星 
中 隐藏 的 这 种 不 一 臻 越 少 ,网 络 将 来 需要 做 的 工作 就 越 少 ,网 络 就 更 趋 于 稳定 。 

boi :这 一 项 是 神经 元 自身 的 稳定 性 的 测度 。4 越 高 ,o 越 高 ,表明 该 神经 元 在 网 络 中 需要 接 
受 的 网 络 输入 越 高 ,从 币 要求 的 网 络 联接 权 的 值 越 高 ,这样 ,网 络 就 趋向 于 不 稳定 。 

只 要 能 证 明 ,在 网 络 的 运行 过 程 中 它 的 能 量 郴 数 ( 式 7- 6) 总 能 保证 是 (广义 ) 下 噬 的 ,就 证 
明了 网 络 呈 稳 定 的 。 注 意 到 网 络 的 运行 表现 出 来 的 只 是 神经 元 的 状态 的 变化 ,所 以 ,只 要 我 们 能 
证 明 对 于 网 络 的 任意 神经 元 的 状态 变化 ,网 络 的 能 量 冰 数 总 尾 (广义 ) 下 降 的 ,就 证 明了 该 网 络 是 
稳定 的 。 

因此 ,仍然 任意 取 一 个 神经 元 AN ,在 网 络 的 某 一 次 德 环 中 , 它 的 状态 从 om 变 成 ok。 按 照 
Cohen 和 Grossberg 所 给 的 Hoepfield 网 络 的 稳定 性 定理 的 要 求 , 设 厂 是 对 角 线 为 ! 的 对 称 拖 阵 : 

ui = 入 所 有 入 ) 入 有) 





mi = ( 委 工 入 )) 
并 且 设 网 络 在 原始 状态 下 的 能 最 函 数 为 
自 下 外 由 
瑟 - 了 了 写 wop - 交 sm 交 7-6 


则 当 AN 的 状态 从 mx 变 成 o 时 ,有 如 下 两 种 情况 ， 
(1) AN4 是 输 人 神经 元 
AN 的 状态 从 o 变 成 后 网 络 的 能 量 函 数 瑟 为 


) 人 。 
， 1 呈 由 wm 
情 =- 》 TU 一 01 十 2 Bomi 


2 一/ 
主旨 且 有 了 = 各 访 夫 了 =] 最 下 
1 6 
工 归 。 AN ，_ 上 工 ， 
了 现 上 是 直 
了 = 1 虑 1 产 丰 了 人 


一 二 za 十 Bo 
注意 到 丈 的 对 称 性 ,上 式 中 的 第 4 项 求 和 与 第 5 项 求 和 悬 相 同 的 ,可 以 将 它们 合并 起 来 。 
另外 , 算 阵 W 的 对 角 线 元 为 0, 所 以 ,上 式 中 的 第 6 项 可 以 删除 。 因 此 ,有 


和 


由 由 站 
四 1 1 
FE =- aoo- aot+ go 


2 Ti 让 1 





一 当 Ms00 一 0 二 0 7-7 
再 注意 到 式 7-6 与 7- 7 中 不 同 的 项 只 是 那些 含有 o* 的 项 ,两 式 相 减 ,可 以 得 到 能 量 的 增 
量 AE: 
AE= 已 一 忆 
=-| 2 uslo-ooj-azos-ooteBove -oo 
了 一 县 
在 


=-[ 了， ago + 允 2 (oo 


1 


， 


[arm 和 (oo 


==- (neb 一 名 )Aos 


即 
王 = 一 (net 及)Aw 7-8 
其 中 ,Aou 表示 AN 状态 的 变化 - 当 
ao =0 
时 ,有 
AFE =0 
由 式 7 了 -3 可知, 当 
Aol > 
时 , 必 有 
o=l&w=0 
这 表示 办 由 0 变 到 工 ,因此 必 有 
et > 失 
所 以 
pet 一 和 >0 
从 而 
一 (net 一 和)aAo<T0 
故此 时 有 


AB<0 
这 就 是 说 ,网 络 的 目标 函数 是 下 降 的 。 同 理 , 读 者 可 以 自行 讨论 当 Ace<0 时 的 情况 ,这 里 不 再 详 
细 讨 论 。 
(2) 4Ne 不 是 输入 神经 元 
AN 的 状态 从 om 变 成 o' 后 网 络 的 能 量 函 数 瑟 为 
E' =-- 工 六 立 -at 六 bp 


站 
2 ”7 1 


1 ， 1 1 ， 
一 亏 > obo0 4 一 训 iag MOk 十 0 
Ji 


与 4N, 是 输入 神 经 元 的 讨论 相同 ,上 式 中 的 第 4 项 求 和 与 第 5 项 求 和 可 以 合并 起 来 ,第 6 
项 可 以 删除 ,整理 得 


则 1 AN 
有 = 了 之 wm -ao 也 oo 
1 
和 
机 ， ， 
一 入 ob0 ADj 十 ok 
1 


从 而 有 


AFE= 瑟 - 百 
， 
一 了 1 站 
=-1 > (os -oojt(os -oo 
了 人 
四 
和 >， TD 一 和 ]kon -ob) 


， 
rn ， 

= 一 ,> oo) -bj(o- Oo) 
族 


2 (re 一生)Aw 
基 
AE =… (net -入 )Aw 7-10 
这 里 值得 说 明 的 是 ,在 变换 中 也 


4 
eth 二 ao 
1 


4 
这 是 因为 AN 不 是 输入 神经 元 ,所 以 , 它 的 网 络 输 入 只 古 > zuoi 。 当 然 ,也 可 以 认为 该 神经 元 
= 1 


对 应 的 输入 向量 的 元 素 的 值 为 40。 在 这 种 假设 下 ,讨论 可 以 得 到 相同 的 结论 。 

用 与 对 式 7- 8 类 似 的 方法 对 式 7- 10 进行 讨论 ,可 以 得 到 :无 论 ANK& 的 状态 是 如 何 变化 
的 ,总 有 : 

AB<0 

综 上 所 述 ,E 在 网 络 的 运行 中 是 广义 下 降 的 。 

需要 说 明 的 是 ,在 上 曾 的 推导 中 用 到 了 * 针 是 对 角 线 为 0 的 对 称 矩 阵 " 这 个 条 件 , 正 是 这 个 
条 件 保证 了 Hopfield 网 络 的 稳定 性 。 但 是 ,必须 指出 ,这 个 条 和 件 并 不 是 必要 条 件 。 事 实 上 ,在 许 
多 系统 中 ,其 联接 权 矩 阵 儿 并 不 一 定 是 对 角 线 为 0 的 对 称 失 阵 。 当 然 ,有 时 候 , 对 称 的 微小 偏差 
也 会 导致 系统 的 不 稳定 情况 的 发 生 。 














7.3 统计 Hopfield 网 与 Boltzmann 机 


在 6.4 节 ,我 们 曾经 因为 讨论 Boltzmaann 训练 而 提 到 过 Boltzmann 机 。 但 是 在 那里 , 没 能 讨 
论 它 的 训练 间 题 。 本 节 将 结合 循环 网 络 , 对 Beltzmann 机 的 训练 问题 进行 适当 的 讨论 。 与 此 相 
关 , 将 首先 讨论 统计 Hopfield 网 。 

1. 统计 Hopfield 网 

在 上 痪 介绍 的 二 值 Hopfield 网 中 , 它 的 每 个 神经 元 的 状态 都 是 按照 式 ?Y- 2.7 -3 计算 确定 
的 。 在 网 络 的 非 确定 讲 练 方法 中 ,曾经 根据 一 定 的 宰 率 来 修改 神经 元 之 间 的 联接 权 , 以 使 网 络 能 
脱离 能 量 的 局 部 极 小 点 。 而 按照 上 节 的 分 析 ,Hopfield 网 络 在 其 运行 过 程 中 ,也 是 在 寻找 其 能 量 
函数 的 极 小 点 。 因此 ,也 可 以 考 砌 让 网 络 以 统计 的 方法 来 确定 其 各 个 神经 元 的 状态 ,并 最 终 达 到 
能 量 两 数 的 极 小 点 。 此 外 ,为 使 网 络 的 训练 能 顺利 进行 ,还 在 非 确定 的 方法 中 引入 了 对 金属 热 加 
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工 中 的 退火 的 模拟 。 用 类 似 的 方法 ,在 Hopfieid 网 络 运行 中 ,也 让 各 个 神经 元 的 状态 的 确定 概率 
与 “个 类 似 的 "人 工 温 度 "相关 。 从 而 使 得 Hopfield 网 络 的 运行 实现 对 金属 退火 过 程 的 模拟 。 这 
就 是 统计 Hopfield 网 。 

在 统计 Hopfield 网 络 中 ,每 个 神经 亡 的 状态 与 它 所 获得 的 网 络 输入 . 国 值 .温度 相关 : 





式 中 : net 一 AN 所 获得 的 网 络 输入 ; 
隶 一 一 AN 的 阔 值 ; 
T 一 一 系统 的 人 工 温度 ; 
访 一 表 砂 AN 的 状态 取 1 的 概率 。 
在 这 里 , 当 系 统 面 对 一 个 输入 向 量 开始 寻找 它 的 相应 和 输出 时 , 它 所 具有 的 人 工 温度 所 取 的 切 
始 值 应 该 是 很 大 的 。 而 且 , 每 个 输 和 人 神经 元 都 应 该 取 相 应 的 输入 向 量 的 分 量 所 规定 的 状态 。 然 
后 ,网 络 拨 照 如 下 等 法 去 寻找 系统 能 量 函 数 的 极 小 点 。 


算法 7~1 统计 Hopfield 网 运行 算法 
1 到 一 个 很 大 的 值 作 为 人 工 温度 T 的 初 值 ; 
2 对 网 络 中 每 一 个 神经 元 AN，， 
2.1 按照 式 7- 11 计算 相应 的 概率 户 ; 
2.2 按照 均匀 分 布 ,在 [0,1] 中 取 一 个 随机 数 ”; 
2.3 如 果 久 >> 则 使 AN 的 状态 为 1, 否则 使 AN 的 状态 为 0 
3 逐 半 降低 光 度 了 ,如 果 温 度 足 够 低 , 则 算法 结束 ;否则 ,重复 2。 


上 述 算法 中 ,人 工 温度 的 初 值 .温度 的 下 降 率 都 可 以 参考 “ 非 确定 方法 "一 章 中 的 有 关 介 绍 ， 
这 里 不 再 重复 。 

2. Boltzmann 机 的 训练 

Beltzmann 机 是 一 种 多 级 循环 人 工 神经 网 络 ,可 以 看 成 是 Hopfield 网 的 一 种 扩展 。 上 只 体 可 以 
参考 第 6 章 。 

我 们 用 最 速 下 降 法 对 Bolzmann 机 进行 训练 。 设 任意 神经 元 AN; 的 阔 值 表示 为 9 ,ov 表示 
神经 元 AN 到 AN; 的 联接 权 。oi .oj 分 别 是 神经 元 AN; 与 ANY; 的 实际 输出 状态 。 与 统计 
Hepfield 网 络 中 的 神经 元 相同 ,o = 1] 的 概率 为 

了 
1 十 em|- 7 】 

当 人 大 工 温 度 了 趋 近 于 0 时 ,每 个 神经 元 的 状态 不 寡 具 有 随机 人 性 ,前 只 具有 给 定 的 特性 。 此 

时 ,boltzmann 机 退化 成 一 般 的 Hopfield 网 。 


访 = 


Jojtzmann 机 的 能 量 数 用 式 了 - 1t2 表示 。 由 于 该 式 同 时 还 表达 出 了 网 络 联接 权 的 和 谐 一 
致 性 ,所 以 又 被 称 为 该 网 络 的 一 臻 性 函数 。 


也 =- yaom 一 要 bo 7-12 
现在 考察 在 Bolztmann 机 的 运行 中 每 次 只 有 一 个 神经 元 的 状态 发 生疏 变 的 情况 。 设 神经 元 
4N; 在 这 次 运行 中 状态 发 生 了 变化 。 由 式 7- 12 可 知 : 
ARE = 开 (o= 们 -局 (o = 了 
二 > 一 7-13 
根据 系统 应 该 选择 具有 能 量 较 低 的 状态 的 原理 ,此 时 ,如 果 AE, >0, 则 应 该 送 4N, 输出 为 
1 ,和 否则 ,应 该 选 AN; 输出 为 0。 
从 概率 的 角度 来 看 ,AE; 的 值 越 大 ,神经 元 AN; 点 该 处 于 状态 L 的 概率 就 应 该 越 大 。 反 之 ， 
AE, 的 值 越 小 ,神经 元 4N, 应 该 处 于 状态 1 的 概率 就 点 该 越 小 。 从 而 ,w = 1 的 概率 为 
书 二 一 一 一 妆 了- 14 
] 十 cm- 年 
设 Battzmann 机 有 疝 个 状态 es .6 ,它们 分 别 对 应 于 o = 1 和 = 0, 而 系统 中 其 他 的 神经 元 在 
这 两 个 状态 下 的 状态 是 不 变 的 。 分 别 用 已 和 疡 表示 系统 出 现 这 两 个 状态 的 概率 。 显 然 ,它们 
是 与 相关 的 , 取 





本 7-55 
AZ， 
P. = 7Y(1 一 坊 ) = 是 7- 16 
1+em 人 -等 | 
从 而 
外 = 作 | 
加 了 (of = 人 一 E(o = 1) 
= eu| 地 ) 
-ef 
即 
其 = oo 人- 径 ) 7- 437 


这 就 是 Beltzmann 分 布 。 由 此 可 见 , 当 网 络 进行 足够 多 次 的 迁 代 后 , 它 处 于 某 一 状态 的 概率 
眠 取决 于 该 网 络 在 此 状态 下 的 能 量 ,又 取决 于 此 时 系统 的 温度 。 由 于 高 温 时 网 络 的 各 个 状态 出 


2 





现 的 概率 基本 相同 ,这 就 给 它 逃 离 局 部 极 小 点 提供 了 机 会 。 

当 系统 的 温度 较 低 时 ,对 式 7 - 17 进行 分 析 , 不 难得 出 ,如 果 忆 . > 上, 则 已 < 也 。 这 说 明 ， 
此 时 网 络 处 于 较 低 能 量 状 态 的 概率 较 大 。 

那么 ,如 何 按照 统计 的 方法 对 Boltzmann 机 进行 训练 呢 ? 1986 年 ,Hinton 和 Sejuowski 给 出 
了 一 种 方法 ,通过 两 个 神经 元 的 "约束 概率 "和 "自由 概率 "来 计算 它们 之 问 的 联接 权 的 调整 量 ; 设 
网 络 在 没有 输入 的 自由 状态 下 .神经 元 AN 和 AN, 癌 时 处 于 激发 状态 的 概率 为 “自由 概率 "P; 。 
网 络 在 加 上 输入 后 神经 元 AN 和 AN 同时 处 于 激发 状态 的 概率 为 “约束 概率 "PP 。 他 们 认为 ， 
神经 元 ANi 和 AN, 之 间 的 联接 权 的 修改 量 与 相应 的 自由 概率 "和 "约束 概率 "有 关 。 其 关系 由 
式 7-18 表 示 : 

Au = a(P7 -了 35) 7-18 

他 们 还 将 Boltzmann 机 的 训练 算法 分 成 三 大 步骤 ,如 算法 7- 2。 


算法 7- 2 Boltzmann 机 训练 算法 
1 计算 约束 概率 
1,1 对 样本 集中 的 每 个 样本 ,执行 如 下 操作 : 
1.1.1 将 翌 本 加 在 网 络 上 (输入 向 量 及 其 对 应 的 输出 向 量 ); 
1.1.2 让 网 络 寻 找平 衡 ; 
上 1.3 记录 下 所 有 神经 元 的 状态 。 
1.2 计算 对 所 有 的 样本 ,AN; 和 ANi 的 状态 同时 为 1 的 概率 


2 计算 自由 梳 率 
2.1 从 一 个 随机 状态 开始 ,不 加 输入 ,输出 ,让 拘 络 自由 运行 ,并 苹 在 运行 过 程 中 多 次 纪 
录 网 络 的 状态 ; 





2.2 对 所 有 的 AN; 和 ANi ,计算 它们 的 状态 同时 为 1 的 概率 P， 。 
3 对 权 和 抑 阵 进 行 调整 
用 At =afPi-P5) 对 ty 进行 修改 。 





算法 中 ,P 表示 网 络 在 样本 集中 的 所 有 样 来 的 约束 下 ,神经 元 4N; 和 AN; 的 状态 同时 为 1 
的 概率 ; Pi 表示 网 络 在 没有 样本 约束 的 自由 状态 下 ,神经 元 AN; 和 AMV 的 状态 疝 时 为 1 的 概 
率 。 

算法 的 1.1.2 步 让 网 络 寻 找平 衡 是 指 , 当 将 一 个 样本 加 到 网 络 上 以 后 ,网 络 开始 寻找 能 量 函 
数 的 极 小 点 , 当 它 到 达 这 个 极 小 点 时 , 它 就 处 于 平衡 状态 。 从 表现 形式 上 看 ,此 时 网 络 的 输出 不 
再 变化 。 在 此 过 程 中 ,可 以 加 进入 工 热 ,使 它 在 温度 逐渐 降低 的 过 程 中 寻找 能 量 的 极 小 点 。 

算法 的 1.1.3 步 要 求 记录 下 网 络 中 所 有 神经 元 的 状态 。 这 是 因为 在 下 一 步 计 算 P, 时 ,要 
对 所 有 的 AN 和 AN 计算 它们 加 时 输出 1 的 次 数 以 及 其 他 傅 况 的 次 数 。 例 如 ,如果 样 本 集中 共 
有 样本 * 个 ,网 络 对 这 * 个 样本 的 运行 结果 是 AN, 和 AN 有 < 次 同时 输出 为 1, 则 此 时 : 

好 ， 





P, = 过 7-89 


值得 注意 的 是 ,这 里 需要 的 是 神经 元 AN, 和 ANi 的 状态 同时 为 1 的 概率 ,实现 时 需要 对 每 
-个 样本 存储 ' -次 网 络 状态 (每 个 神经 元 在 网 络 处 于 能 量 函 数 的 极 小 点 时 的 输出 值 )。 这 样 才 有 
利于 找 出 神经 元 AN; 和 入 N 的 状态 问 时 为 1 的 次 数 ,以 计算 出 相应 的 概率 。P5 的 求法 类 似 。 


7.4 双 联 存储 器 的 结构 


在 第 上 章 曾 经 提 到 ,人 类 的 记忆 通常 都 具有 联想 的 功能 。 我 们 都 有 这 样 的 经 验 : 当 我 们 获得 
某 一 项 成 果 而 使 心情 非常 好 时 ,会 自然 地 联想 起 以 前 曾经 为 此 做 出 的 努力 ,曾经 在 某 时 某 地 有 过 
怎样 的 美好 经 历 …… 当 我 们 遇 到 某 个 挑 折 时 ,马上 就 会 认真 地 检讨 自己 ,看 自 已 曾经 在 哪些 方面 
出 现 了 漏洞 ,有 过 什么 样 的 失误 。 当 我 们 闲 下 来 时 ,会 从 今天 的 环境 .状态 .条 件 等 联想 到 未 来 。 
研究 首 认为 ,所 有 这 种 现象 ,是 因为 人 脑 具有 这 样 的 机 制 : 它 可 以 从 某 一 件 事 出 发 ,给 予 一 个 所 谓 
的 智力 链 ,从 一 伴 事 想到 另 一 件 事 。 这 使 得 人 们 有 能 力 去 “ 唤 回 失去 的 记忆 ”。 

在 前 面 三 节 中 ,已 经 看 到 了 人 工 昼 经 网 络 对 联想 功能 的 模拟 。 在 那里 ,网 络 主要 是 实现 对 模 
式 的 “修补 " “加强 "。 实 际 上 ,在 网 络 中 ,存放 着 苦于 个 模式 ,对 于 一 个 待 回忆 的 内 容 , 网 络 通过 
对 用 户 提供 的 "线索 "进行 联想 ,最 终 找 到 和 这 个 “线索 "匹配 最 好 的 模式 。 所 以 , 它 实 现 的 联想 是 
属于 自 相 联 的 。 

在 另 一 些 时 候 , 需 要 网 络 能 够 在 接收 到 一 个 模式 后 ,将 该 模式 与 不 同 的 模式 联系 起 来 。 但 是 
上 一 章 所 介绍 的 网 络 模型 却 无 法 实现 这 个 功能 ,这 是 由 它 的 单 层 结构 造成 的 ,因为 在 单 层 结构 
上 ,可 以 看 成 阅 络 的 输入 和 输出 是 出 现在 同一 组 神经 元 上 ,所 以 , 它 实现 的 是 自身 到 自身 的 映射 。 

为 了 解决 不 同 模式 的 联想 ,必须 使 用 不 同 的 神经 元 组 去 对 应 网 络 的 输入 向 基 和 输出 向 量 ， 
这 样 ,对 应 加 在 一 组 神经 元 上 的 一 个 输入 模式 ,网络 就 可 以 在 另 一 组 神经 元 上 产生 -~ 个 与 之 相关 
联 的 不 同 输出 。 这 种 联想 被 称 为 异 相 联 。 实 现 这 种 联想 的 网 络 叫做 双 联 存储 器 (Bidirectional 
Associaltive Memory~ 一 简 记 为 BAM) 。 

此 外 ,与 Hopfield 网 类 伏 , 双 联 存储 器 还 具有 一 定 的 雅 广 能 力 。 它 对 含有 一 定 缺 随 的 输入 向 
量 , 通 过 对 信号 的 不 断 变换 、 修 补 ,最 后 给 出 一 个 正确 的 输出 。 

本 节 将 首先 介绍 双 联 存储 器 的 结构 。 

图 7-3 给 出 的 是 最 基本 的 双 联 存储 器 。 实 际 上 , 它 是 “个 双 晨 循环 网 络 。 为 了 清楚 地 表现 
出 输 人 向 量 经 过 联接 矩阵 多 (第 2 层 的 联接 权 和 矩阵 ) 被 传送 到 第 2 层 神经 元 ,在 第 1 层 神经 元 后 
加 了 一 个 “联接 .该 “联接 "就 银 第 2 层 神经 元 的 输出 通过 “第 0 层 ” 的 联接 后 经 权 和 矩阵 多 7( 第 | 
层 的 联接 权 年 阵 ? 送 到 第 工 层 一 样 。 

在 该 网 络 中 ,信号 的 传送 过 程 是 这 样 的 :输入 向 量 时 被 通过 联接 权 和 抢 阵 色 传送 到 下 一 明 ， 
此 时 在 网 络 的 第 2 层 上 产生 输出 向 量 Y ,输出 向 量 Y 又 被 通过 (反馈 ) 联 接 和 矩阵 W7 反馈 到 第 1 
层 ,该 层 又 产生 出 新 的 向 量 天, 夺 又 被 通过 联接 权 和 矩阵 传送 到 第 2 层 ,此 时 又 产后 新 的 输出 向 量 
Y… 光 这 个 过 程 被 循环 下 去 ,直到 网 络 的 输出 了 不 再 变化 为 止 。 
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图 7-3 基本 的 双 联 存储 器 结构 


图 7- 3 中 的 神经 元 所 执行 的 功能 与 多 级 网 中 其 他 神经 元 执行 的 功能 是 相同 的 。 两 络 运 行 
可 用 下 面 的 式 子 加 以 描述 ， 


Y = 了 (XUW) 7 一 好 8 
大 = 下 (YWT) 了 ~ 21 
其 中 ,输入 ,输出 向 量 夺 .了 是 如 下 形式 的 向 量 : 
疏 = (zzayzn 


了 = (72 
下 为 神经 元 的 激活 函数 ,一般 可 采用 * 形 函 数 ， 
1 
和 一 1 + exp{ 一 Anep) 


随 着 式 中 4 值 的 不 断 增 加 ,该 冰 数 趋 近 于 疝 值 为 ! 的 阔 值 函数 。 所 以 ,在 简单 情况 下 ,可 以 取 


1 ieb 0 
= 10 让 2eni <0 7-22 
区 if ret = 0 


式 中 , 当 神 经 元 的 网 络 输 人 为 和 时, 它 的 状态 保持 不 变 。 

依照 上 述 运 行 方式 ,对 一 个 给 定 的 输入 向 量 , 网 络 的 输出 向 量 应 该 由 开始 的 较 大 变化 逐渐 过 
渡 到 最 后 的 不 变化 。 当 然 ,这 是 网 络 的 理想 运行 情况 。Kosko 在 1987 年 已 经 证 明 , 基 本 的 双 联 
存储 器 是 无 条 件 稳 定 的 。 这 是 因为 它 的 第 1 层 各 第 2 层 的 联接 权 和 矩阵 是 互 为 转 置 定 阵 。 

显然 , 当 输 入 向 基 的 维 数 与 输出 向 量 的 维 数 相同 时 , W 就 变 成 了 一 个 方 阵 ,此 时 如 果 联 接 矩 
阵 W 是 对 称 的 : 
网 = 三 : 
则 由 式 7-20 和 7-21 所 进行 的 变换 是 完全 相同 的 ,而 两 个 完全 相同 的 变换 可 以 用 网 络 的 两 次 
循环 来 完成 。 此 时 ,基本 的 双 联 存储 器 就 退化 成 了 一 个 Hopfield 网 。 





， 果 ， 


7.5 蜡 相 联 存储 


对 Hopfisld 网 ,我们 说 它 实现 了 自 相 联 的 贞 射 , 它 的 权 和 邱 阵 按照 式 ?-3 和 ?了 -4 计算 设 定 。 
双 联 存储 器 实现 的 是 异 相 联 映射 ,因此 ,可 以 考虑 用 类 似 的 方法 ,通过 计算 来 设 定 联接 权 和 矩阵 
WwW。 
设 网 络 的 训练 样本 集 为 
8 = 六 (大 四) (大 2 人) 














歼 = 和 xz 7-23 
作为 联接 权 和 矩阵 。 

一 个 值得 注意 的 问题 是 ,对 于 任何 一 个 网 络 来 说 , 它 的 容量 是 有 限 的 。 在 不 超过 冉 络 的 存储 
容量 的 情况 下 ,按照 此 式 构造 出 来 的 双 联 存储 器 ,可 以 实现 所 要 求 的 变换 。 当 样本 集中 的 输 人 向 
量 被 送 到 网 络 中 的 时 候 ,网 络 可 以 立即 给 出 相应 的 结论 。 

在 下 列 两 种 情况 下 ,网 络 需 要 对 输入 向 量 进行 反复 的 循环 处 理 ,才能 给 出 输出 结果 : 

《1) 当 和 输入 回 量 中 含有 "了 听 音 "时 ,网 络 需要 在 反复 的 循环 过 程 中 逐渐 地 将 所 含 的 噪音 去 掉 。 
当 嗓 音 被 去 掉 后 ,网 络 前 输出 就 是 该 输入 向 量 对 应 的 适当 输出 ,此 时 网 络 达到 能 基 丽 数 的 极 小 
点 ,这 使 得 网 络 的 状态 不 再 继续 发 生变 化 。 

(2) 当 样 本 集 所 含 的 信息 超出 网 络 的 容量 时 ,即使 给 出 的 输入 向 量 是 样本 集中 的 某 一 个 向 
量 , 网 络 也 会 进 人 循环 ,而 且 在 网 络 运行 结束 后 , 它 给 出 的 结果 也 可 能 并 不 是 正确 的 结果 。 

关于 网 络 的 穿 量 ,有 如 下 一 些 结果 : 

《1) 1987 年 ,Kosko 给 出 过 一 个 较为 悲观 的 估计 。 他 认为 ,在 一 般 情 况 下 ,要 联 存储 器 的 容 
量 不 会 超过 网 络 的 最 小 层 的 神经 元 的 个 数 。 

{2》1988 年 ,Haines 和 Hecht、Nieison 证 明 , 如 果 双 联 存储 器 中 的 每 个 神经 元 各 选 一 个 阔 
值 ,构成 一 个 “ 非 均匀 的 (Nonhotmogehous) "网络 , 则 网 络 的 存储 容量 最 多 可 以 达到 2”'" ,其 中 ， 
zi 为 网 络 的 最 小 层 的 神经 元 的 个 数 。 这 种 非 均匀 的 网 络 是 基本 双 联 存储 器 的 扩充 。 在 这 里 ， 


式 7- 22 被 换 成 
工 主 net > 筷 
和 这 net 芯 记 了 -22- 
这 met = 让 
按照 Haines 和 Hecht- Nielson 的 证 明 , 通 过 分 别 给 网 络 中 的 每 一 个 神经 元 选择 适当 的 病 值 ,可 
以 使 得 该 网 络 的 稳定 状态 数 取 1 与 2 叫 之 间 的 任何 数 。 然 而 , 由 于 用 户 所 要 求 系 统 的 稳定 状态 
并 不 是 随机 选取 的 ,它们 是 要 根据 问题 的 实际 决定 的 。 所 以 ,实际 上 ,系统 的 容量 很 难 达到 这 个 
数据 。R. ]. MeElieee 下 .C，Posner 下 . R， Rodemich 和 S、S，Venkaresh 关于 Hopfield 网 络 的 
存储 容量 的 结论 被 P. D. Wasserman 用 于 双 联 存储 器 的 容量 估计 。 结 论 指出 ,如 果 用 户 随机 地 
96. 


选择 L 个 状态 ,并 且 要 求 每 个 向 量 中 有 4 + logz mi 个 分 量 为 1, 其 他 为 -下 则 可 以 构造 出 一 个 
非 均匀 的 双 联 存储 器 , 它 可 以 使 98% 的 向 量 成 为 稳定 状态 。 而 且 要 求 
人.68mmi2 
站 < 放生 

不 幸 的 基 , 对 输入 向 量 中 1 的 个 数 的 限制 ,严重 地 影响 了 它 的 应 用 。 尤 其 重要 的 是 , 它 的 运 
行 可 能 达 不 到 稳 态 。 也 就 是 说 .网络 可 能 产生 不 了 适当 的 结果 。 

虽然 双 联 存储 器 的 容量 有 较 大 的 局 限 性 ,但 是 ,从 网 络 的 结构 及 其 训练 来 看 , 它 叉 具有 非常 
简单 .容易 实现 等 特点 。 





7.6 其 他 的 双 联 存储 器 


1. 连续 的 双 联 存储 器 

在 基本 的 双 联 存储 器 中 ,假定 网 络 中 神经 元 的 状态 是 同步 变换 的 ,而 且 这 些 神 经 元 使 用 的 痢 
是 阐 依 生 数 。 这 使 得 网 络 的 表现 能 力 受 到 一 定 的 限制 。 而 且 在 生物 神经 系统 中 ,这 两 点 都 是 不 
存在 的 。 仔 细 对 其 进行 分 析 发 现 , 这 两 点 限制 主要 是 为 讨论 方便 而 设 的 。 取 消 这 两 点 限制 后 ,网 
络 将 有 更 强 的 表达 能 力 。Kosko 在 1987 年 已 经 证 明 , 取 消 这 两 个 限制 后 , 双 联 存储 器 仍然 是 稳 
定 的 。 

2. 自 适应 双 联 存储 器 

前 面 , 对 Hopfield 网 和 双 联 存储 器 都 是 用 计算 的 方法 进行 训练 的 。 除 此 之 外 ,也 可 以 让 双 联 
存储 器 在 运行 中 调整 联接 权 。 最 简单 的 方法 是 使 用 Hebb 学 习 律 进行 训练 , 即 对 任意 mw, ,到 : 

和 zh = aorOi ?了 一 守 

3 具有 竞争 的 双 联 存储 器 

在 双 联 存储 器 中 ,可 以 通过 在 层 内 神经 元 之 间 添 加 附加 的 联接 来 实现 竞争 。 这 些 权 构 成 另 
一 个 主 对 角 线 元 未 为 正 值 ,其 他 元 素 为 负 值 的 权 生 隆 。Cohen - Grossbetg 定理 指出 ,如 果 权 矩阵 
是 对 称 的 , 则 网 络 是 稳定 的 。 

实际 上 , 邯 使 权 皇 阵 不 是 对 称 的 ,网 络 通常 也 是 稳定 的 。 然 而 ,目前 还 不 知道 娜 一 类 权 和 矩阵 
会 引起 不 稳定 。 


7.7 Hopfield 网 用 于 解决 TSP 问题 


循环 网 络 有 很 多 应 用 ,其 中 ,1985 年 ,J. ]. Hopfield 和 D. 多. Tank 巧妙 地 将 此 技术 用 于 
TSP 向 题 的 求解 。 这 种 方法 虽然 难以 给 册 TSP 问题 的 最 优 解 , 但 是 ,试验 表明 . 当 城市 的 个 数 不 
超过 30 时 ,在 多 数 时 候 , 它 可 以 给 出 最 优 解 的 近似 解 。 而 当 城市 的 个 数 超过 30 时 ,最 终 的 结果 
就 不 太 理 想 了 。 尽 管 如 此 , 它 还 是 表明 了 循环 阅 络 的 能 力 。 与 此 同时 ,作者 认为 ,j. ].， Hopfisld 
和 了 . 加 .Tank 用 循环 网 络 来 描述 TSP 问题 的 方法 ,是 独具匠心 的 ,非常 值得 学 习 。 因 此 .用 这 
一 结果 的 描述 作为 本 章 的 结束 。 
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所 谓 TSP 问题 ,简单 地 讲 ,就 是 ,一 个 洁 货 员 要 顺序 地 访问 ”个 城市 ,并 最 终 回 到 起 点 。 城 


市 之 间 均 存在 给 定 卫 离 的 通路 ,项 望 选择 的 略 乞 是 最 短 的 。 在 有 ， 个 城市 的 情况 下 ,将 存在 2 


条 可 能 的 路 径 。 鲍 如 , 当 m = 60 时 ,可能 的 路 径 就 有 69.34153Sx 108 条 。 显然 ,不 可 能 一 条 一 条 
地 去 计算 它们 的 长 度 ,最 后 青 从 中 选择 出 最 短 的 路 径 来 ， 因为 这 个 计算 量 太 大 了 。 大 们 已 经 证 


以 


态 . 





明 ,这 个 问题 是 一 个 NP 问题 ， 


设 问 题 中 含有 2” 个 城市 。 央 为 要 用 神经 元 的 状态 来 表示 出 这 ”个 城市 被 访问 的 顺序 ,所 


,对 应 一 个 城市 需要 有 nm 个 神经 元 。 这 相当 于 说 ,该 网 络 将 含有 z? 个 神经 元 。" 可 以 "将 这 些 
神经 
出 是 1 时 ,该 城市 就 被 第 凡 个 访问 。 所 以 ,正常 的 情况 下 ,在 运行 过 程 中 ,网络 应 该 保持 这 样 的 状 


苑 排 成 一 个 2 x 的 方 阵 。 计 该 方 阵 的 每 一 行 对 应 一 个 城市 。 当 该 行 的 第 几 个 神经 元 的 输 


方 阵 的 每 行 昼 经 元 中 有 且 仪 有 一 个 输出 为 1 同时 ,该 方 阵 的 每 列 昼 经 元 中 也 有 且 仅 有 一 个 


答 出 为 1。 


硼 7- 1 给 出 了 四 个 城市 的 TSP 问题 的 表示 。 分 别称 这 四 个 城 击 为 X 了 .QZ .多 。 如 果 从 焉 


市 生出 发 , 则 它 表 现 出 来 的 访问 顺序 为 ;第 1 先 访问 城市 X ,第 2 访问 城市 史 ,第 3 访问 城市 


Y, 第 4 访问 城市 Z ,最 终 返 回 到 城市 X。 


玫 7-1 四 个 城市 的 TSP 问题 的 琳 示 




















被 访问 的 顺序 
城市 名 1 2 了 4 
0 1 0 0 
了 了 山 10 1 
Z 可 0 0 4 
机 1 1 1 0 














对 后 面 用 到 的 符号 ,约定 如 下 : 
4 一 -城市 X 与 城市 y 之 间 的 距离; 
; 个 神经 元 的 状态 ， 








其 中 


_ 城市 X 在 第 ; 个 被 访问 国 
所 ”|0 城市 X 不 在 第 ; 个 窜 访 问 
io,y 一 -城市 X 的 第 ; 个 神经 元 到 城市 了 的 第 ; 个 神经 元 的 连接 权 。 
按 下 列 公式 设置 连接 矩阵 
tab-B) -8B60-8) -CC- 反 (00+- 7-26 
1 如 时 ; = 
5 如 时; 二) 了 一 27 


蕊 7-26 的 第 1 项 -48s(1- 人 5) 中, 当 XzY 时 , 因 1 为 0 而 使 该 项 为 0, 此 时 使 得 - 人 


不 起 作用 ;而 当 X= 了 且 i 和 ) 时 、 吕 就 为 0, 此 时 该 项 取 值 4 ,用 来 实现 同一 行 中 的 神经 元 之 间 
站。 


的 互相 抑制 。 所 以 ,可 以 认为 ,- A 为 列 内 神经 元 之 问 的 抑制 因子 。 

式 7-26 的 第 2 项 - B8j(] -0) 中 , 当 ; 汉 ) 时 , 因 3 为 0 而 使 该 项 为 0, 此 时 使 得 - 8 不 
起 作用 ;而 当 ;= /县 改天 时 ,0 不 为 和, 而 此 时 3 为 0, 这 使 得 该 项 取 值 - 及, 用 来 实现 同一 列 
中 的 神经 元 之 间 的 互相 抑制 。 所 以 ,可 以 认为 , - 懈 为 行内 神经 元 之 问 的 抑制 因子 。 

式 7-26 的 第 3 项 -C 则 是 对 任意 X、Y .7 都 发 挥 作用 的 。 所 以 .可 以 将 它 看 成 是 全 局 抑 
制 因子 。 

臣 7-26 的 第 4 项 吧 ,(2 + 8 1 为 距离 项 。 其 中 ,5 为 城市 问 的 虑 离 在 连接 权 中 的 反 
上 映 因子 。 显 然 , 该 项 只 有 在 六 :与 六 (中 有 一 个 不 为 0 时 才 发 挥 作用 ,此 时 要 人 么 +1T= 六 要 么 
1-1=7。 注意 到 mv,y 是 表示 X 是 被 第 ; 个 被 访问 的 , Y 是 被 第 ) 个 被 访问 的 情况 ,所 以 , 当 :; 
+1=7 时 ,表示 访问 X 后 立即 访问 Y; 面 当 ; -1= 了 时 ,表示 访问 Y 后 立即 访问 X。 无 论 是 哪 
一 种 情况 ,售货员 旅行 的 虐 离 都 是 4.,, 此 时 它 被 加 到 相应 的 权 上 。 

网 络 的 能 基 函 教 被 定义 为 
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问 一 次 ,能 量 就 增加 翁 ,所 以 ,4 为 城市 被 多 次 访问 的 惩 名 因子。 
第 2 质 仅 当 每 次 最 多 只 访问 一 个 城市 时 取得 极 小 值 0。 如 果 出 现 多 个 城市 被 同时 访问 的 现 
象 ,表明 是 发 生 了 不 可 能 的 情况 ,因此 必须 黎 制 。 一 次 访问 的 城市 每 多 一 个 ,能 量 就 增加 艺 。 所 
以 ,B 为 多 个 加 市 被 同时 访问 的 徙 昼 因 子 。 

第 3 项 当 且 仅 当 所 有 的 ”个 城市 一 共 被 访问 ”次 时 才 取得 最 小 值 0。C 为 一 个 城市 被 访问 
多 次 ,或 者 系统 中 存在 城市 未 被 访问 时 的 乱 罚 因子 。 本 项 与 前 两 硕 一 起 用 于 保证 每 个 起 市 被 访 
问 且 仅 被 访问 一 次 。 
第 4 项 表示 按照 当前 的 访问 路 线 的 安排 所 需要 走 的 路 径 的 总 长 度 。 对 每 一 个 城市 X， 如 果 
它 是 被 第 【个 访问 的 话 , 则 当 另 一 个 城市 Z 无 论 是 被 第 ;+ 1 个 访问 ( 紧 接 着 X 后 被 访问 ) 还 是 
被 第 ;- ! 个 访问 (访问 城市 Z 后 ,立即 访问 城市 X) ,都 要 在 路 径 的 总 长 度 中 加 上 这 两 个 城市 之 
间 的 距离 4n, 从 而 使 得 当 每 个 城市 被 访问 且 仅 被 访问 一 次 时 ,选择 的 路 径 越 优 ,能 量 函数 的 什 
就 越 小 。 





可 以 按照 式 7- 26 将 ”个 城市 之 间 的 距离 4- 写 人 网 络 的 连接 权 中 ,给 网 络 中 的 每 个 神经 郊 
.由 ， 


一 个 适当 的 初 值 ,然后 让 阅 络 自 己 去 寻找 它 的 能 量 亢 数 的 极 小 点 。 当 它 达 到 这 个 极 小 点 时 ,网 络 
的 状态 就 应 该 不 再 发 生变 化 ,此 时 网 络 的 状态 给 出 的 就 是 访问 ”个 城市 的 最 佳 路 径 的 一 个 近似 
解 。 


练 习 题 


1. 什么 是 循环 网 络 的 稳定 性 ? 它 与 网 络 训练 中 的 收 伍 问题 有 什么 不 同 ? 

3, 试 分 析 循 环 网 络 中 神经 元 状态 的 同步 变化 和 异步 变化 在 网 络 训练 和 运行 中 的 不 同 。 变 化 方式 的 不 同 ， 
是 得 会 影响 到 网 络 的 性 能 ? 为 什么 ? 芳 外 ,对 * 蜡 步 变化 ,在 训练 控制 工 需 要 做 哪些 处 理 ? 

3 试 分 析 用 Lyapunov 函数 作为 Hopfield 网 络 的 能 量 函 数 来 对 该 网 络 的 稳定 性 进行 评价 的 台 理 性 。 

4. 为 什么 说 "联接 权 和 矩阵 是 对 角 线 为 1 的 对 称 窍 阵 * 是 Hobficld 网 络 稳定 的 充分 条 件 ? 

5. 给 出 Hopficld 网 络 运 行 算法 的 思想 ， 
6. 给 出 Boltzmann 机 训练 算法 
7 
8 
9 








BAM 是 如 何 实现 异 相 联 映射 的 ”如 提要 实现 自 相 联 映射 ,应 该 使 用 哪 一 个 网 络 模型 ? 
，BAM 是 实现 姬 相 联 映射 的 。 但 是 ,用 BAM 是 否 可 以 实现 身 相 联 喘 射 呢 ? 为 什么 ? 
循环 网 是 如 何 实现 对 TSb 问题 的 表示 和 求解 的 ? 
10. 总 结 非 循环 网 利 循环 网 在 训练 ,运行 .功能 等 方面 的 特点 ,指出 它们 的 区 别 - 
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第 八 章 ” 自 适 应 共振 理论 


在 前 面 介 绍 过 的 人 工 神经 网 络 模型 ,都 旦 用 一 个 给 定 的 样本 集 进 行 训练 。 在 完成 训练 后 , 投 
人 上 正常 的 远 行 。 如 果 在 使 用 的 过 程 中 环境 发 生 了 变化 , 旭 需 要 重新 构造 一 个 能 够 表现 当前 环境 
的 样本 集 , 并 用 该 样本 集 重 新 对 网 络 进行 训练 。 在 这 种 情况 下 ,不 能 只 用 变化 后 新 加 的 样本 对 网 
络 进行 "补充 "训练 。 这 会 破坏 掉 网 络 原来 已 学 会 的 内 容 , 而 只 记 下 新 的 内 容 。 这 就 是 说 ,网 络 的 
长 期 存储 内 容 只 是 它 最 后 获得 浏 练 时 系统 所 面 对 的 样本 集 所 草 含 的 内 容 。 网 络 的 这 种 不 能 在 保 
留 已 学 内 容 的 前 提 下 增加 新 内 容 的 特性 叫做 网 络 的 不 吕 塑 性。 图 8 一 1 给 出 了 这 一 类 网 络 面 对 
环境 的 变化 ,所 需要 采取 的 策略 。 





样本 集 
新 添 样 本 
训练 
全 并 
重新 训练 
点 用 新 环境 下 的 应 洛 


图 8 -1 环境 的 变化 要 求 重新 训练 网 络 


初步 想来 ,上 述 情况 难以 充分 地 发 挥 人 工 神经 网 络 的 信息 分 布 存放 特性 所 带 来 的 优点 。 因 
为 信息 分 布 存放 的 最 大 特性 之 一 是 信息 的 部 分 破坏 不 会 影响 所 存放 的 内 容 。 那 么 在 遇 到 新 的 变 
化 时 ,应 该 可 以 根据 新 的 样本 “部 分 地 "改变 原 有 存储 信息 ,来 对 网 络 实施 “补充 "训练 。 但 试验 表 
明 , 这 是 不 行 的 。 究 竟 为 什么 不 能 只 将 代表 新 添 内 容 的 样本 拿 来 对 网 络 实施 "补充 "训练 呢 ? 租 
过 进一步 仔细 的 分 析 知道 , 当 用 代表 新 涨 内 容 的 样本 来 训练 网 络 时 ,网络 的 每 一 个 联接 权 都 要 根 
撕 这 些 样本 进行 适当 的 调整 .这 样 一 来 ,进行 的 就 不 是 “部 分 修改 ”而 是 全 部 的 修改 了 。 这 种 做 
法 的 实际 效果 是 :将 当前 的 网 络 联接 权 和 矩阵 当 作 初 值 ,按照 “新 的 样本 集 "进行 新 的 训练 。 所 以 ， 
训练 后 的 网 络 绝 大 多 数 只 能 类 达 出 “新 的 样本 集 " 所 含 的 内 容 。 

从 上 述 分 析 可 以 得 出 这 样 的 启示 :在 面 对 一 些 表 示 新 添 内 容 的 样本 时 ,如 果真 正 能 够 只 修改 
一 部 分 内 容 ,这 样 才 有 希望 在 保证 不 破坏 原 存 储 内 容 的 基础 上 将 新 的 内 容 增 加 进去 。 因 此 ,选择 
娜 一 部 分 进行 修改 是 网 络 要 解决 的 问题 。 显 然 , 被 修改 的 内 容 应 该 是 和 新 的 内 容 相关 的 。 这 就 
告诉 我 们 ,在 将 样本 中 所 含 的 内 容 存 人 网络 的 时 候 , 不 能 再 像 一 般 网 络 那样 ,实施 完全 的 分 布 存 
放 。 如 果 餐 存放 也 应 该 是 将 有 关 的 内 容 放 在 一起。 也 就 是 说 ,存放 是 分 类 的 。 
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样本 所 含 内 容 的 分 类 及 其 存放 应 该 是 由 网 络 自动 完成 的 ,而 且 这 个 过 程 应 该 昆 逐 步 进行 的 
一 一 要 在 网 络 的 应 用 过 程 中 逐渐 丰富 。 也 就 是 说 ,网 络 可 以 " 边 工 作 , 边 学 习 ", 在 实践 中 不 断 地 
让 富 笑 己 的 知识 。 这 种 性 质 称 为 网 络 的 可 塑性 。 

综 王 分 析 ,要 想 使 网 络 其 有 可 塑 性 ,必须 实现 以 下 4 项 功能 ， 

(1) 对 样本 的 分 类 功能 ; 

(2) 分 类 的 识别 功能 ; 

(3) 比较 功能 ; 

(4) 类 的 建立 功能 。 

如 果 网 络 具备 了 这 四 项 功能 , 它 就 能 够 在 使 用 过 程 中 不 断 地 感知 大 量 的 信息 ,从 中 抽取 有 价 
值 的 内 容 ,对 它们 进行 分 类 加 工 .并 在 不 破坏 原 有 存储 信 息 的 前 提 下 ,存储 新 的 内 容 一 不断 二 
富 自 己 的 知识 ,增加 自己 的 功能 。 这 正好 与 人 脑 对 信息 的 处 理 相对 应 。 人 类 在 实践 中 不 断 丰 窒 
自己 的 知识 .人 类 的 大 脑 可 以 完成 对 来 自 周 围 环境 的 大 量 连 续 感知 信息 的 分 类 工作 ,从 这 些 大 量 
的 信息 中 抽取 有 价值 的 东西 ,对 它们 进行 适当 的 加 工 .并 在 完成 加 工 后 ,将 它们 存储 起 来 。 在 这 
个 过 程 中 ,不 会 因为 学 习 了 新 的 东西 而 忘掉 已 学 会 的 东西 。 也 正 是 因为 这 一 点 , 才 使 人 类 有 具有 非 
常 强 的 不 断 地 适应 新 环境 的 能 力 , 才 能 不 断 地 生产 ,不 断 地 丰富 自己 的 物质 生活 和 精神 生活 。 因 
此 ,要 想 使 人 工 神经 网 络 能 够 发 挥 更 大 的 作用 ,也 必须 使 它 具 有 可 塑性 ,有 能 力 适 应 木 断 变化 的 
世界 的 需要 。 

实际 上 ,Carpentcr 和 (rossberg 在 1986 年 曾经 给 出 了 -- 个 非常 特殊 的 例子 :他们 只 给 网 络 
有 限 的 4 个 样本 ,这 4 个 样本 被 周期 性 地 提交 给 网 络 ,网 络 需要 通过 不 断 地 修改 各 个 联接 权 去 适 
点 这 个 变化 的 环境 。 网 络 联接 权 的 不 断 变 化 ,表明 网 络 旦 难以 收敛 的 。 后 来 ,Girossberg 及 其 助 
手 们 构造 出 了 具有 可 塑 性 的 网 络 模型 ,时 和 做 自 适 应 共 所 理论 (Adaptive Resonance Thecry , 简 记 为 
ART)。 按 照 其 输入 数据 及 其 处 理 , 这 种 网 络 模 错 可 以 分 成 两 大 类 :-- 类 只 接受 二 值 的 输 人 向量 ; 
另 一 类 则 可 以 接受 二 值 的 和 连续 值 的 输 和 向量。 习惯 上 ， 人 们 将 前 一 类 叫做 ARTI1 ,而 将 后 一 类 
叫做 ART2。 当然 ,可 以 通过 用 二 进 制 进行 编码 ,去 考 达 一 个 非 二 值 表 达 的 数据 。 但 是 ,从 一 般 
的 角度 来 讲 ,第 二 种 模型 的 应 用 范围 要 更 为 广泛 一 些 。 

本章 将 介绍 ART1 网 络 模型 。 为 叙述 简洁 起 见 , 直 接 将 其 记 为 ART。 主 要 内 容 包括 :ART 
模型 的 总 体 结构 ,各 借 块 功能 ;比较 层 的 联 护 矩阵 与 识别 度 的 联接 矩阵 的 初始 化 ,识别 过 程 与 比 
较 过 程 ,查找 的 实现 ;ART 的 训练 。 















































8.1 ART 的 结构 


为 了 使 网 络 在 保持 原 有 内 容 的 前 提 下 ( 称 之 为 稳定 性 ) ,能 够 将 新 的 内 容 添加 进去 ( 即 可 塑 

性 ) ,按照 上 述 分 析 ,ART 首先 必须 是 一 个 分 类 器 , 它 能 够 将 输入 向 量 进行 适当 的 分 类 ,给 分 类 处 

理 与 存储 打下 基础 。 对 一 个 给 定 的 输入 向 量 ,ART 将 在 网 络 中 已 经 存放 的 所 有 分 类 中 进行 查 

找 ,如 果 能 够 发 现 其 中 的 某 一 个 “类 表示 "表达 了 该 输 入 向 量 的 基本 特征 , 则 可 对 此 分 类 的 表 杀 

模式 进行 适当 的 微调 ,使 之 能 更 好 地 表达 该 输入 向 量 。 由 于 被 调整 的 “对 象 "是 已 被 网 络 确 认 的 
:102 。 











用 来 表示 输 人 向 量 所 在 类 的 “类 表示 ”, 所 以 它 不 彤 响 已 有 的 其 他 类 的 "类 表示 ”, 这 使 得 网 络 的 稳 
定性 得 到 保证 。 对 该 输入 向 量 . 如 果 网 络 发 现在 已 有 的 "类 表示 ”中 不 存在 相对 应 的 , 则 在 自己 的 
容量 范围 内 创造 一 个 新 的 “类 表示 ”, 使 它 与 该 输 和 向量 实 现 丐 配 。 从 而 使 网 络 上 其 有 可 塑性 ， 


本 似 ; 修 故 相 匹 配 的 模式 | 


新 输入 向 量 与 现存 模式 < | 丈 严 机 的 现存 模式 不 补 修 发 


+ 不 相似 : 建立 一 个 新 模式 
图 8 2 网 络 的 黎 定 性 与 可 塑性 保证 


为 实现 网 8 - 2 提出 的 要 求 , 可 以 构造 出 图 8- 3 所 泵 的 ART 总 体 结构 图 。ART 模型 主要 
包含 5 个 功能 模块 :识别 层 ,比较 层 ,识别 层 和 输出 信号 控制 (C1) ,比较 层 输出 信号 控制 (C2) , 系 
统 复位 控制 、 它 的 基本 工作 过 程 为 : 当 系统 没有 接受 输入 向 量 的 时 候 , 比 较 层 输出 信号 控制 CG1 
使 得 比较 层 的 输出 信号 f 为 0: 识别 层 的 输出 控制 搞 号 G2 使 得 识别 层 的 输出 信号 王 为 9。 当 
输入 向 量 X 一 旦 被 加 到 系统 上 .GL 使 苇 被 原封 不 动 地 按照 C 的 形式 送信 识别 层 。 在 识别 层 找 
到 C( 必 ) 应 该 属于 的 类 ,该 类 的 代表 向 量 被 以 向 量 P 送 回 到 比较 层 , 与 瑟 比 较 , 形 成 新 的 输出 
向 C,C 和 起 又 同时 被 送 到 系统 复位 控制 模块 进行 比较 ， 如 果 系统 认为 C 可 以 代表 X, 则 网 络 
进入 训练 期 一 一 按照 筷 修改 被 选中 的 中 和 宁 。 如 果 系 统 认为 C 不 能 代表 于, 则 发 出 信号 ,使 识 
别 层 复位 (重新 输出 0) ,向 量 对 重新 被 原样 送信 比较 层 , 妹 找 新 的 类 进行 匹配 …… 如 此 下 去 , 直 
到 找到 一 个 能 满足 要 求 的 类 或 者 发 现 系 统 中 更 有 的 类 均 不 能 满足 要 求 。 当 后 一 种 情况 发 生 时 ， 
则 在 系统 中 按照 蕊 建立 一 个 新 类 。 


市 呈 | 网 R |] 外 


记 mw 复位 控制 


人 业 度 控制 参数 






































色 8-3 ART 和 总体 结 构图 


从 这 个 简要 的 工作 过 程 来 看 ,在 系统 的 5 个 模块 中 ,识别 层 输 出 信和 叶 控 制 C1( 简 称 为 识别 控 
制 ) ,比较 层 输出 信号 控制 G2( 简 称 为 比较 控制 ) .系统 复位 控制 等 3 个 模块 是 用 来 实现 信号 的 传 
输 控 制 的 。 识 别 层 ,比较 层 承 担 系统 的 主要 功能 ,系统 中 存放 的 分 类 信息 也 由 这 两 层 来 分 析 和 记 
忆 。 因此 ,为 了 后 面 的 分 析 方便 起 抑 , 图 8 一 4 给 出 了 ART 模 型 的 以 识别 层 和 比较 层 为 主 的 拓扑 
结构 ,对 其 他 3 个 模块 ,只 标 出 其 控制 信号 。 
在 网 8-3.8-4 中 ,于 为 输入 向 量 , 丸 为 识别 尽 的 输出 向 量 , C 为 比较 层 的 输出 问 量 , 闻 是 
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比较 层 的 网 络 输 人 向 量 。 后 面 会 看 到 , 己 相 当 于 向 量 忆 所 处 的 类 的 表示 形式 。T(Top - down) 
为 从 识别 层 到 比较 层 的 联接 权 算 阵 ,B(Bortom - up} 为 从 比较 层 到 识别 层 的 联接 权 和 矩阵 ,Ti 和 
召 , 分 别 是 识别 层 的 第 ; 个 神经 无 对 应 的 识 员 层 的 联接 权 向 基 和 比较 居 的 联接 权 向 量 ， 





县 = (02 
其 中 ,性 胡 示 识 别 层 的 第 ; 个 神经 抑 到 比较 层 的 第 ) 个 神经 元 的 联接 权 ,如 表示 比较 层 的 第 1 个 
神经 元 到 识别 层 的 第 / 个 神经 元 的 联接 权 。 户 为 比较 层 的 第 ; 个 神经 元 的 网 络 和 输入， 


记 = 8-1 



































期 8 4 以 比较 屋 和 识别 屋 为 主 的 ART 拓扑 结构 


下 面 分 别 讨论 这 $ 个 功能 借 块 。 
1， 比较 层 输出 信号 控制 
由 图 8$- 3 知 , 比 较 层 输出 信号 控制 模块 接收 来 自 外 界 的 输 人 向量 X 和 来 自 识 别 县 的 输出 
向 量 忍 。 它 根据 这 两 个 信号 ,决定 输出 G1: 仅 当天 为 非 0 向量, 并且 玉 为 0 向 量 时 ,G1 才 输 出 
,其 他 情况 下 它 均 输 出 0: 
CErV PVACVEY YY TD 8-2 
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也 就 是 说, 仅 当 一 个 输入 向 量 刚 寺 在 网 络 上 (X 到 0) ,识别 其 对 应 的 输出 向 量 还 来 出 现时 (此 
时 尺 = 人, 进而 使 P = 0),G1 才 输 出 1。 这 是 用 来 配合 比较 层 的 工作 ,使 得 在 网 络 处 理 某 个 输 
人 间 量 的 初始 阶段 ,该 输入 向 量 能 够 被 原原本本 地 送 人 识别 层 进行 其 类 别 的 识别 ， 
2. 识别 层 输出 信号 控 制 
识别 层 输 出 信号 控制 可 以 看 成 是 识别 层 的 封锁 与 使 能 控制 。 当 外 界 没 有 信号 输入 时 . 奈 = 
0, 这 时 它 封锁 识别 层 ,使 它 输出 f 问 量 (R = 0.P = 0); 而 在 止 常 运行 中 ( 汪 夫 0), 它 使 能 识别 
层 ,使 之 可 以 根据 当前 的 癌 量 C ,产生 相 庶 于 C 的 类 表示 已 (R)。 
人 2 = TV -3 
3- 比较 导 
比较 层 则 时 接受 三 个 信号 :输入 信号 天， In 卫 , 比较 层 输出 控制 信号 G] 。 
该 层 的 神经 元 执行 二 - 三 规则 。 它 的 第 计 个 神经 元 癌 时 接受 zx 、 记 、G1, 相 应 的 输出 为 : 
1 +Di+CGI 2 
ce = 8.-4 
10 二 0 二 
在 比较 层 开始 接受 一 个 非 9 输 入 向 量 五 之 前 , 称 此 时 问 络 处 于 待命 期 。 由 于 此 时 相当 于 网 
络 的 输入 向 量 大 = 0, 所 以 , 识 刻 层 受到 控制 信号 (32 的 作用 ,所 有 的 神经 元 被 抑制 ,此 时 它 的 输 
出 疝 基 刃 = 0。 当 一 个 非 9 的 输入 向 量 下 加 在 网 络 上 后 ,网 络 进入 第 1 个 工作 周期 ,此 时 .比较 
层 和 输出 信号 控制 单元 首先 工作 。 由 式 8-2,G1 = 上 ,而 此 时 仍然 有 尽 = 0( 从 而 使 王 = 0), 根 
据 式 8 -4,X 被 原封 不 动 地 传送 到 识别 层 ， 
C = 大 8-5 
当 这 个 C 被 送 人 识别 层 的 阿 时 ,网络 的 非 0 输入 于 使 C2= 1( 式 8- 4), 从 侧 使 能 识别 县。 识别 
层 中 的 某 一 个 神经 元 输出 ,其 他 输出 为 1。 不 妨 没 该 神经 元 为 第 & 个 神经 元 。 由 式 





饭 = 六 
站 
三 生 岳 8 
二 上 
从 而 有 : 
了 = 下 -了 


区 此 ,识别 层 的 第 & 个 神经 元 对 应 的 从 自身 到 比较 层 的 各 个 神经 元 的 联接 权 所 构成 的 向 量 
是 输入 癌 量 的 类 表示 。 由 于 忌 夭 0 ,所 以 ,在 正常 情况 下 , 尼 夭 0, 了 天 0 成 立 。 由 式 8-2, 此 时 ( 江 
被 填 为 0。 到 此 时 ,网络 工作 的 第 1 个 局 期 结束 。 此 时 网 络 进入 第 2 个 工作 周期 。 按 照 上 述 分 
析 ,在 网 络 工作 的 第 2 个 周期 开始 时 ,有 G1=0,G2 天 0,R 天 0。 根 据 式 8- 4, 在 这 个 周期 ,比较 
层 的 输出 向 量 C 实际 上 是 向 量 于 和 严 的 "与 
G= 辣 四 入: 扩 8 一 8 
由 此 可 以 大 出 ,如 肾 网 络 认为 某 一 组 输入 向 景 是 同一 美的 , 山 代 表 它们 所 在 美的 向 最 应 该 为 它们 
的 "与 "。 





4. 识别 层 

如 图 8-3.8-4 所 示 , 识 别 层 接受 三 个 信 导 :(G2 ,复位 .C。 由 式 8- 3, 当 没有 输入 向 量 加 在 
网 上 时 ,X = 0 使 得 GC2 输出 0。 这 样 ,识别 层 的 所 有 神经 郊 被 封锁 。 而 当 有 输入 向 量 时 ( 忆 关 
0) ,识别 层 的 神经 元 被 使 能 。 此 后 ,对 该 输入 向 量 夺 , 按 网 络 的 运行 ,确定 自己 的 状态 。 

向 量 C 是 蕊 经 过 比较 层 变 换 后 输出 的 向 量 , 它 是 系统 给 的 “ 暂 定 "代表 。 在 比较 层 的 讨 
论 中 ,我 们 知道 ,在 头 被 网 络 处 理 的 第 1 个 工作 周期 中 ,C = X, 此 时 识别 层 的 第 上 个 神经 克 
RN 所 获得 的 网 络 输入 为 ; 


由 了 8 -9 
由 于 该 层 的 任务 是 识别 出 X(C) 应 该 是 属于 哪 一 类 的 向 基 , 所 以 ,该 层 实行 的 是 竞争 机 制 。 在 
最 简单 的 情况 下 ,对 应 于 一 个 向 景 ,识别 晨 中 有 拭 仅 有 一 个 神经 元 处 于 激发 态 (输出 1) ,其 他 
则 均 处 于 抑制 态 。 显 然 ,处 于 激发 态 的 RN 对 应 的 权 向 量 甩 将 与 C 匹配 的 最 好 。 由 式 8 -9 知 ， 
玉 与 C 有 最 大 的 点 积 ， 


因此 ,与 RNI,RNa,…,RN。 相对 应 ,向 量 有 ,了 B:,…,B。 代表 着 不 同 的 分 类 。 昌 然 互 .C 
是 二 值 向 莉 , 但 马 ,了 ,Bu 则 是 实数 向 量 , 胡 明 从 比较 层 到 识别 层 的 联接 权 是 实数 。 与 之 对 
应 的 二 值 表 示 是 比较 层 相应 神经 苑 对 应 的 从 识别 屋 到 比较 层 的 联接 权 向 量 Ti , T; ,…,，T,，， 有 Bi， 
了 与 Ti 依照 RN RN …,RN， 相对 应 ,从 形式 上 看 ,下 和 昧 相同 的 向 基 形 
成 一 一 对 应 。 

识别 层 的 竞争 机 制 是 通过 各 个 RN 之 间 的 侧 联接 实现 的 。 这 些 侧 联 接 , 除 到 自身 的 联接 为 
刺激 ( 正 ) 联 接 外 ,其 他 均 为 抑制 ( 负 ) 联 接 。 这 样 ,获得 最 大 网 络 输入 的 RN 能 够 抑制 同 层 其 他 神 
经 元 的 激发 。 

5. 系统 复位 控制 

复位 模块 也 问 时 搂 受 三 个 信 叶 :输入 (原始 ) 向 量 X ,向 量 C ,精度 控制 参数 p。 该 模块 根据 
一 定 的 规则 计算 C 与 X 的 相似 谋 , 如 果 该 相似 度 满足 精度 控制 参数 p 的 要 求 ,就 表示 C 确实 可 
以 表 公 于。 如 果 该 相似 度 不 能 满足 精度 控制 参数 o 的 要 求 ,就 表示 C 实际 上 不 能 表示 瑟 。 此 时 ， 
复位 控制 模块 发 出 复位 信号 。 对 应 该 输入 向 量 束 , 在 不 允许 RNe 激发 的 条 件 下 ,重新 寻找 它 应 
该 对 应 的 类 的 表达 向 量 。 

对 一 个 输入 向量 于 ,网 络 经 过 运行 ,找到 一 个 向 量 C, 由 上 面 的 讨论 知道 , 它 被 认为 是 夺 所 
处 的 类 的 代表 。 但 是 ,这 个 代表 可 能 不 能 满足 精度 要 求 。 因 此 ,需要 继续 寻找 能 满足 精度 要 求 的 
C: 在 这 种 情况 下 ,复位 控制 信号 使 得 本 次 被 " 误 选 "的 神经 元 被 屏蔽 。 在 理想 的 情况 下 ,这 个 过 
程 仅 在 输入 向 量 万 第 一 次 被 加 在 网 络 上 时 出 现 。 在 环 被 网 络 认 定 为 某 一 类 后 , 当 它 再 一 次 被 加 
在 网 络 上 时 ,网 络 应 该 能 迅速 地 找到 它 所 对 应 的 类 , 侧 不 需要 进行 反复 的 查找 。 一 般 用 下 列 公式 
计算 与 C 的 相似 度 : 
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。 四 
了 oue = maxr| bo ls j 二 可 | 8 -10 


1 二 
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再 注意 到 式 8 - 11, 可 以 得 到 0<s 饼 1。 按 照 精度 控制 的 要 求 , 如 果 之 p, 这 表 永 网 络 最 终 
认可 当前 处 于 激发 态 的 RN 所 对 应 的 有 、Ti 为 X 的 类 表示 。 如 果 *< p, 表 示 本 次 选中 的 RN 
所 对 应 的 Bl,、Tx 不 能 很 好 地 代表 天 ,因此 ,需要 重新 寻找 。 


8,2 ART 的 初始 化 


8 -11 





5 一 


由 于 ART 是 在 运行 过 程 中 通过 自 适 应 地 进行 联接 权 的 调整 来 实现 学 习 的 ,因此 ,ART 的 初 
始 化 非常 重要 。 与 前 面 所 叙述 的 各 奖 网 络 模型 不 同 ,ART 的 初始 化 与 它 的 基本 工作 原理 紧密 相 
关 , 直 接 关 系 到 ART 的 可 塑性 .分 类 表示 等 方面 的 问题 ,因此 需要 给 予 专门 的 讨论 。ART 的 初 
始 化 主要 包括 对 比较 层 到 识别 层 的 权 乞 阵 了 ,识别 层 到 比较 层 的 权 称 阵 及 、 精 度 控 制 参数 o 的 初 
始 化 。 下 面 ,分 别 对 其 进行 讨论 。 


8.2.1 工 的 初始 化 








下 是 从 识别 层 到 比较 层 的 联 贸 矩阵 ,按照 上 节 对 识别 层 和 比较 层 运行 的 介绍 ,在 网 络 以 最 简 
单 的 方式 工作 的 情况 下 ,对 每 :个 输入 疝 量 ,识别 层 有 且 仅 有 一 个 神经 元 (如 ; RNe) 输 出 1, 其 他 
均 输 出 0。 而 在 比较 层 ,每 个 神经 元 是 按照 二 - 三 规则 工作 的 ,由 此 来 实现 向 量 下 与 己 的 比较 。 
由 式 8-6.8- 了 知道 ,此 时 的 了 就 是 RN 对 应 的 向 量 私 。 这 表明 ,连接 抢 阵 了 应 该 是 一 个 0,1 
符 阵 。 
对 输入 向 量 冬 , 通 过 RN 被 激发 , 被 以 P 的 形式 送 人 比较 层 。 式 8- 8 的 向 量 形式 为 : 
C= 有 AP= 下 Am 8 -12 
而 系统 的 复位 控制 模块 是 按 式 8- EL 来 计算 C 与 不 的 相似 度 的 ,能 够 保证 c; = 1 的 必要 条 件 为 
xi =1, 即 对 于 任意 1SiSw， 
主 ec = ithen zi = 1 
另外 ,根据 8,3 节 中 关于 工 的 训练 的 讨论 ( 式 8- 17) ,应 该 用 1 初始 化 矩阵 人 的 所 有 元 素 , 即 对 
于 任意 1 科研 m ,1 芝 ) 科 风 , 有 
已 = 1 8 -14 
所 以 ,最 开始 时 , 抢 阵 了 的 所 有 元 素 全 为 1。 
8.2.2 四 的 初始 化 
在 上 述 讨论 过 程 中 ,对 移 阵 吾 是 按 列 向 量 讨 论 的 ;了 的 列 向 量 吾 ,Bz,…,8w 依次 对 应 于 
RNTRN RN ,从 而 每 一 个 向 量 Bk 又 是 RN 对 应 的 类 的 代表 向 量 。 按 照 网 络 的 运行 方 


式 , 对 于 一 个 输入 向 量 于, 如果 RNVt 在 竞争 中 获胜 , 则 屯 与 X 的 点 积 取 最 大 值 。 所 以 ,为 了 使 
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网 络 的 运行 保持 有 一 定 的 准确 件 , 需 要 用 较 小 的 值 去 初始 化 吾 的 每 个 元 素 。 和 否则 ,对 间 一 个 输 
人 向 晶 X 的 两 次 不 同 的 加 载 ,可 能 会 因 引 起 不 同 的 RN 的 激发 而 导 殖 错误 按照 (rossberg 与 
Carpenter 的 研究 结果 ,对 于 任意 1] 委 ji 膛 nm ,1 入 j 入 六 . 有 

的 EM(E- 工 + 站 8 - 15 
其 中 ,mn 为 输入 向 量 的 维 数 ;L 为 一 个 大 于 | 的 常数 , 其 全 应 该 与 输入 向 基 的 位 数 相关 。 由 虐 式 
可 知 ,对 于 任意 1 委 i 委 m1 秋 j 委 , 鸭 E(0，1) ,是 一 个 非 负 纯 小 数 。 从 而 ,与 .ti 邱 阵 工 对 应 
的 称 阵 有 呈 是 一 个 实数 矩阵 。 实 际 上 ,关于 识别 层 的 -个 神经 元 RN ， Ti 、Bx 分 别 是 它 对 应 的 类 
的 两 种 不 同形 式 的 表示 。 另 外 ,由 式 8- 15, 在 网 络 开始 运行 时 ,五 的 每 个 元 素 都 是 相同 的 ,他 们 
将 随 着 网 络 的 运行 逐渐 被 改变 。 


8.2.3 0 的 初始 化 
左 名 思 义 ,精度 控制 参数 o 用 来 控制 网 络 的 识别 精度 ， 注 意 到 式 8- 11.8- 12, 我 们 知道 : 


0 扫 : 和 上 
显然 , 当 *“* 0 时 ,本 次 所 得 的 匹配 是 最 差 的 ; 当 * = 1 时 ,是 最 为 理想 的 匹配 。 此 时 ,C = X 成 
立 。 
由 上 述 分 析 知 ,oE [0, 1]。p 的 值 越 大 ,网络 所 实现 的 划分 就 越 细 ;2 的 值 越 小 ,网 络 所 实现 
的 划分 就 越 粗 。 这 就 是 说 ,e 的 值 是 划分 “粗细 "的 标准 。 所 以 , 它 的 初始 化 要 根据 网 络 的 用 户 要 
求 来 确定 。 也 可 以 在 网 络 运 行 的 初期 将 e 的 值 取得 小 一 点 , 浴 实现 较 粗 的 划分 ,以 后 逐渐 加 大 ， 
以 实现 更 精确 的 划分 。 


8.3 ART 的 实现 


本 节 讨 论 ART 的 实现 。 由 于 ART 本 身 具 有 自 适应 能 力 , 所 以 ,ART 的 训练 是 在 运行 过 程 
中 根据 执行 的 结果 确定 的 。 
在 完成 初始 化 后 ,ART 就 可 以 投入 运行 ,实现 * 边 学 习 , 边 工作 "。 为 了 叙述 清楚 起 见 ,将 
ART 面 对 一 个 输 人 向量 辟 的 处 理 分 为 四 个 阶段 :识别 .比较 ,查找 .训练 。 
1]. 识别 
当 输 人 向 莒 X 未 被 加 在 网 十 时 ,网 络 的 输入 相当 于 是 0。 根 据 式 8 - 3,G2 = 0, 这 使 得 识 
别 层 的 所 有 神经 元 被 抑制 。 此 时 ， 
及 = (rryrn) = (00 0) 
当 一 个 非 0 向 量 被 加 在 网 络 上 时 ,由 式 8-2.8-3, 得 
cl = 62=1 
成 立 。 而 由 于 此 时 尺 = 0, 所 以 ,根据 式 8- 1, 有 
王 =《 有 加) 一 (000) 
肯 根 据 式 8 一 4, 获得 式 8- 5 的 结果 。 此 时 ,在 识别 层 , 对 于 每 个 上 ,LAs 六 ,RN 完成 如 
下 操作 : 
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0) 计算 站 be 

(2) 接收 来 折 其 他 RN 的 抑制 信号 ,并 向 其 他 的 RN 发 出 抑制 信和 号， 

(3) 确定 自己 的 输出 状态 ; 

(4) 完成 输出 。 

RN 之 间 的 抑制 信 生 是 道 过 它们 之 问 的 抑制 连接 实现 的 。 如 果 某 一 个 RNVe 输出 1, 则 志明 ， 
在 本 轮 识别 中 , 忆 暂时 被 认为 是 属于 该 尺 Ne 所 对 应 的 类 。 

2. 比较 

当 识 赐 层 在 本 轮 识 细 中 将 X 归于 RN 对 应 的 类 后 , RN 的 输出 值 ] 被 分 别 以 权重 om 传送 
到 比较 层 ,由 式 8-6.8 一 7, 此 时 送信 比 较 层 的 向 量 号 就 是 向 量 fr 开 的 初始 化 及 后 面 讨论 的 开 
的 训练 保证 了 了 的 等 个 元 素 取 值 为 0 或 者 1。 所 以 ,在 前 而 曾经 说 ,根据 Ri 进行 对 应 ,下 与 
到 于 为 变换 形式 。 由 于 此 时 及 天 和 ,使 得 G1=0。 出 二 -三 规则 ,<c, 的 值 根据 式 8- 8 确定。 如 
果 对 于 所 有 的 六 1 过 j 私 m 让 = 辣 , 则 表示 买 获 得 良好 的 上 配 。 如 果 存 在 六合 得 户 关 属 , 则 表 
明 兴 与 相应 的 “类 "的 代表 向 量 并 不 完全 一 致 
当 系 统 复 位 控制 模块 接收 到 不 和 C 后 ,就 计算 它们 的 相似 度 *， 
”如 果 * 产 p, 则 表明 识别 层 在 本 轮 所 给 出 的 类 满足 系统 的 精度 要 求 。 所 以 ,查找 成 功 ,系统 
进入 相应 的 训练 周期 。 
， 如果 "< po, 则 表明 识别 层 在 本 轮 所 给 出 的 类 不 能 满足 系统 的 精度 要 求 。 此 时 ,复位 模块 
回 识 别 层 发 出 复位 信号 ,使 所 有 的 RN 输 秃 0。 系统 回 到 开始 处 理 忆 的 梓 态 ,重新 进行 搜索 。 由 
于 复位 信号 在 使 所 有 的 RN 输出 0 的 同时 ,屏蔽 了 本 次 被 激发 的 RN ,所 以 ,在 下 一 轮 的 匹配 中 . 
该 RN 被 排除 在 外 ,以 便 系统 能 够 找到 其 他 更 怡 当 的 RN 。 

3. 青 找 

如 果 * 字 p, 认 为 网 络 查找 成 功 , 此 时 分 类 完成 ,无 需 再 查找 。 

如 果 *<p，, 则 表明 本 轮 实 现 的 距 配 不 能 满足 要 求 ,此 时 需要 寻找 新 的 匹配 向 量 。 上 基体 过 程 
如 下 : 

(1) 复位 模块 向 识别 层 发 出 复位 信号 ; 

(2) 所 有 的 RN 均 被 抑制 ;R = (rrm) = (0,0,…,0), 上 轮 被 激发 的 RN 被 屏蔽 ， 

《3) G1 的 值 恢 复 为 1; 

(4) X 的 值 再 次 被 从 比较 层 送 到 识别 层 :C = 时 ; 

(5) 不 同 的 RN 被 激发 ,使 得 不 同 的 P( Ti) 被 反馈 到 比较 层 ; 

《6) 比较 层 进行 根 应 的 比较 ,并 判定 本 次 匹配 是 否 满足 要 求 ; 

《7) 如 果 本 次 匹配 不 成 功 , 则 重复 (1) 一 (6) 直到 如 下 情况 之 一 发 生 ， 

1) 本 轮 匹配 成 功 。 表 明 已 找到 一 个 与 息 匹 配 较 好 的 模式 ,此 时 ,网 络 进 人 训练 期 ,对 这 个 匹 
配 的 模式 进行 适当 的 修改 ,使 它 能 更 娩 地 表示 。 

2》 网 络 中 现存 的 模式 均 不 号 配 。 这 表明 , 慰 不 属于 现在 的 任何 一 个 类 。 因 此 ,网 络 需要 重 
新 构造 一 个 新 模式 来 表达 这 个 类 。 此 时 ,网络 用 一 个 还 未 与 任何 类 关联 的 RN 来 对 应 下 所 在 的 
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类 ,根据 故 修改 与 此 RN 对 应 的 mu ,下 。 由 于 在 进行 较 络 的 初始 化 时 ,已 将 了 的 每 一 个 元 素 初 
值 为 1 ,而 在 训练 中 网 络 不 修改 未 被 选中 的 连接 权 向 量 ( 风 后 面 的 讨论 ) ,所 以 ,此 时 被 网 络 选 中 
的 RN{ 不 妨 仍 用 RN: 表示 ) 所 对 应 的 从 识别 层 到 比较 层 的 连接 权 向 量 到 = (1,1,… ,1)。 四 而 ， 
已 =(1.1,…,1) 被 送 人 比较 层 ， 由 二 - 三 规 则 ,此 时 C = XAP = 天 ,被 送 入 系统 复位 控制 模 
块 。 由 式 8-11,*=1 ,而 p 和 1, 所 以 > 之 p。 忠 配 获得 成 功 ,网 络 进入 训练 期 。 
从 上 上 述 查找 过 程 厦 出 , 当 将 一 个 和 输 和 人 向 量 加 到 网 络 上 后 ,网 络 并 不 一 定 能 立即 找 出 它 所 在 的 
类 。 这 是 一 个 值得 过 论 的 问题 。 因 为 按照 一 般 的 情况 ,对 应 输 人 向 量 苹 , 由 式 8- 10 ,首先 被 选 
中 的 RN 应 该 是 获得 了 最 大 的 激励 值 ,为 什么 输入 向 其 不 一 定 属于 RN 所 对 应 的 类 呢 ? 分 析 
发 现 ,由 于 受 好 的 值 的 取 法 的 影响 ,有 时 候 ,获得 最 大 激励 值 的 RN 对 应 的 类 不 一 定 是 奈 所 属 的 
类 ， 这 使 得 查找 成 为 网 络 工作 的 一 个 必 不 可 少 的 过 程 。 例 如 : 设 ， = 5, 一 个 输 人 向 量 为 ; 
刀 = (1.0.0.0,0) 
和 = (10.0,11) 
= (10,0,10) 
按照 式 8- 15 ,假定 月 22- 1 + 5》 初始 化 日 , 当 Xi、X2 被 输入 时 ，RNI RN2: 分 别 被 涩 
发 ,按照 式 8- 16 对 网 络 进行 的 训练 , Ti ,T2 ,B1 ,了 B; 分 别 取 如 下 值 ， 
Ti = (1.0.0.0,0)，B = (1.0,0.0,0) 
Ta = (1.0,011)，B: =《0.5.0,0.0.5,0.5) 
此 和 时 , 当 %3 被 输 人 系统 时 ,RN1 ,RN; 获得 的 激励 值 都 基 1 ,这 两 个 神经 元 都 有 可 能 被 选中 而 处 
于 激发 状态 。 如 果 RN; 被 选中 , 则 此 时 由 比较 层 输出 的 向 量 C = 是 ,从 而 使 得 ， = 1 ,表明 该 
选择 满足 网 络 的 精度 要 求 。 但 是 ,如 果 首 先 选中 的 是 RN1, 此 时 比较 呈 的 输出 向 量 避 =(1,0.0， 
0,0) ,从 而 使 得 。 = 0.5, 当 p>0.5 时 (如 到 p= 0.8) ,选择 RN 就 不 能 疯 足 精度 要 求 ,此 时 网 
织 就 需要 进入 查找 工作 阶段 ， 
(1)》 RN 获胜 ; 
(2) C 最 值 (1.0,0,0,0); 
GD) -六 = 0.5i 
(4 s<ps 
(5) RN 被 屏蔽 ， 
(6) 网 络 进入 第 二 个 查找 周期 , RN; 获胜 ; 
(7) C 取 值 (1.0,0,1,0); 
(宇和 = 
(9) 满足 精度 要 求 ,停止 查找 ,进入 训练 期 。 
上 述 讨论 是 基于 在 式 8- 15 和 式 8-16 取 蕊 为 2 的 前 所 下 进行 的 , 当 工 歌 其 他 的 值 时 ,如 
1.5,4 等 ,将 会 有 不 同 的 结果 。 将 这 些 留 给 读者 自己 去 讨论 。 
和 另外 ,在 具体 的 实现 中 ,读者 需要 注意 ,对 一 个 给 定 的 输入 向 量 下 , 当 一 个 被 初步 选中 的 RN 
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被 系统 认为 是 不 能 满足 精度 要 求 后 ,在 网 络 继续 为 该 输入 向 量 寻 找 新 的 匹配 类 的 过 程 中 ,应 该 -- 
直 被 斌 项 。 槛 注意 的 舅 一 个 问题 是 ,由 于 网 络 中 包 合 着 五 个 主要 的 功能 异 块 ,它们 之 间 瑟 相 澡 
响 ,如 上 信号 的 反馈 ,使 得 网 络 中 的 信号 较为 复杂 。 所 以 ,建议 读者 按照 这 里 提 到 的 “查找 周期 ” 
的 概念 去 处 理 信号 的 传递 问题 
四 ,训练 
当期 络 进入 训练 期 时 ,已 知 答 入 向 量 与 RN 对 应 的 存储 模式 (向 暴 家 、Bs) 相 似 ,此 时 网 络 
将 用 该 模式 代表 它 。 为 了 使 向 量 了 、B 更 好 地 代表 X 的 特点 ,将 按 如 下 方法 对 它们 进行 修改 : 
对 Ts 二 2, 令 
e 
工 一 + 六 
有 8 -17 
与 式 8-15 类似,8-16 中 的 工 也 是 一 个 常数 。 由 式 8-7.8-8 可 知 ,矩阵 工 的 任意 泡 素 的 值 
只 可 能 从 1 变 成 0 ,而 不 可 能 从 如 变 成 1。 所 以 ,在 8.2 节 中 ,要 求 用 1 初始 化 下 的 所 有 元 素 。 
由 式 8-5.8-7.8-8.8-~17 推 知 ,如 果 RN 对 应 的 模式 代表 类 1 于， 和 二 则 有 
和 AAA 8-18 
这 就 是 说 ,网 络 将 向 世 共 有 的 东西 镍 为 它 的 类 表示 ,这 也 符合 一 般 意义 下 的 “共同 特征 "的 要 求 。 
式 8-16 中 的 号 是 非常 重要 的 ,不 妨 将 它 看 成 向 量 C 的 一 个 度量 , 它 越 大 ,产生 的 权 值 就 
越 小 ; 它 越 小 ,产生 的 权 值 就 趟 大。 这 使 得 当 一 个 向 量 是 另 一 个 向 量 的 子 集 时 ,能 够 获得 较 好 的 
操作 。 仍 取 
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归 = 


Xi = (1,0.0;,0,0) 
2 = (0.0,1,1) 
3 = (01100010) 
设 瑟 , 分 别 使 RNT RN; 激发。 对 应 地 , 设 Ti > 马 .了 2 = 于。 如 果 式 8-16 中 没有 
习 o 则 此 时 8 = TB = 73。 那么 , 当 大 | 再 一 次 被 输入 时 ,RN 、RNa 因为 蓝 得 的 网 络 输 和 
梧 而 都 有 被 选中 的 可 能 。 如 果 RN; 被 选中 , 则 会 导致 网 络 运行 错误 ,使 得 原 有 的 分 类 被 严重 
破坏 : 
(1) 夸 被 再 次 输入 ,导致 RN 被 选中 ; 
(2) 识别 县 将 送 入 比较 民 :P = 了 
(3) 此 时 ,C = PA 世 = 吕 ; 
(4) C 与 忆 被 送 人 系统 复位 控制 模块 ,计算 出 ， = 1 
(5) 因为 > p，, 所 以 对 网 络 进行 训练 ; Ta = C。 
显然 ,其 原 值 被 破坏 了 。 而 当选 择 一 个 适当 的 ,同时 在 调整 有 时 保留 习 c ,这 个 问题 就 可 
以 避 锡 了。 ， 
“1 


各 要 提醒 读者 注意 的 是 ,网 络 的 分 类 并 不 是 一 成 不 变 的 ,为 说 明 此 问题 ,继续 使 用 上 而 例子 
中 的 输 和 人 向量, 这 里, 取 工 = 6, 用 式 8-15 对 下 进行 初始 化 ,使 得 中 的 所 有 元 素 均 取 值 0.6: 

《1) 已 | 的 输入 导致 RN 被 激发 ;Bi 被 训练 后 取 值 为 (1,0,0,0,0). 

(2) 输入 和 时 ,RNI RN: 所 获得 的 网 络 输入 分 别 为 1 和 1.8, 这 导致 RN2 被 激发 ;了 B? 被 
训练 后 取 值 为 (0.6,0,0,0.6,0.6)- 

(3) 此 时 ,如 果 于 | 再 次 被 输入 ,RN RN: 所 获得 的 网 络 输入 分 别 为 1 和 4.6, 从 而 止 确 的 
神经 元 被 激发 ;如 果 X2 再 次 被 输入 , RNI RN: 所 获得 的 网 络 输入 分 别 为 上 和 1.8. 从 而 也 仍然 
有 正确 的 神经 元 被 激发 。 

(4)》 当 忆 ;被 输入 时 ,RN RN: 所 获得 的 网 络 输入 分 别 为 1 和 1.2, 从 而 RN: 被 激发 ,此 
时 ,Ts=(1.0.0,1,1) 被 送信 比较 层 ,使 得 CC = TAN3 = X3 ,从 而 关 致 = 1> ps 

(5) 网 络 进入 训练 。T: ,及 ; 被 修改 : 

Ti = (10.0,1.0) 
Ba; = (677,0.0.6j7,0) 

(6) 当 再 次 输入 时 ,RN RN; 所 获得 的 网 络 输入 分 别 为 和 12/7 ,这 再 次 导致 RN: 被 
激发 。 但 是 ,此 时 识别 层 送 给 比较 层 的 和 = (1,0,0,1,0), 从 而 有 。 =2/A3 ,如 果 系 统 的 复位 控制 
参数 p>2/3 ,此 时 系统 会 重新 为 下; 选择 一 个 新 的 神经 元 。 

由 此 例 可 多 ,网 络 是 根据 当前 存储 的 模式 确定 将 一 个 输 和 人 向 基 划 归 某 一 类 的 。 随 贰 网 络 的 
运行 , 它 撑 可 以 根据 新 的 情况 进行 重新 分 类 。 所 以 , 当 一 个 输入 向 量 不 在 某 一 时 期 锌 归 人 某 … 
类 后 , 当 它 再 次 出 现时 ,有 可 能 被 分 到 另 一 类 中 。 

最 后 需 演 指出 的 是 ,虽然 ART 网 络 因为 具有 可 盟 性 ,使 得 它 可 以 边 工作 边 学 习 。 但 是 ,如 果 
能 一 次 性 地 收集 到 网 络 运行 将 会 遇 到 的 所 有 情况 的 代表 向 量 , 也 可 以 计 网络 先 进行 训练 ,在 训练 
完成 后 ,再 投入 运行 。 这 是 因为 ,ART 在 训练 稳定 之 后 ,任意 一 个 具有 与 训练 向 量 基本 特点 相亲 
的 输入 向 量 都 会 在 被 输入 时 “立即 "激发 它 所 对 应 的 神经 元 ,无关 再 进行 查找 。 并 且 , 对 任意 的 答 
人 问 量 序列 ,网 络 在 经 过 有 限 次 的 学 习 后 ,将 产生 一 个 稳定 的 权 向 量 集合 ,任何 重新 出 现 的 讲 练 
向 基 序 列 都 不 会 导致 ART 网 络 联接 权 的 不 断 变 化 。 在 这 种 情况 下 ,由 于 运行 中 无 需 再 考虑 训练 
的 问题 ,这 会 使 得 其 运行 期 间 的 效率 大 大 提高 。 同 时 这 也 提醒 我 们 ,网 络 按 要 求 进 人 训练 期 的 时 
候 , 当 它 正好 激发 原来 激发 的 神经 元 时 ,相应 的 训练 工作 有 可 能 是 可 以 沽 略 的 。 




















练 习 题 


上 什么 叫 网 络 的 可 塑性 ? BP 网 ,对 传 网 等 为 伯 么 不 具有 可 烤 性 ? 

2. 可 塑性 网 络 应 该 具有 哪 几 种 特殊 功能 ?它们 在 保证 网 络 的 可 塑性 方面 各 起 什么 作用 ? 

3. 图 8- 2 指出 了 网 络 为 了 保证 可 杉 性 , 当 它 遇 到 一 个 输 和 向量 时 应 该 采取 的 策略 。 分 类 和 类 表示 功能 是 
这 种 网 络 最 基本 的 功能 。 请 你 指出 ART 是 如 何 分 类 ,如 何 表示 一 个 类 的 。 

4. 请 根据 图 8 3 和 图 8 -4 叙述 ART 的 工作 过 程 ， 并 说 时 ART 是 如 何在 保证 网 络 的 稳定 性 的 前 提 下 .又 
使 网 络 具有 了 可 时 性 的 。 

12 ， 


5 叙述 比较 层 和 识 曾 层 的 工作 原理 :- 

6 如 何 理解 ART 是 稳定 的 ,同时 .ART 又 允许 网 络 在 运行 过 程 中 根据 当前 的 运行 情况 改变 个 输入 向 庆 
的 分 类 的 现象 。 也 就 说 ,在 ART 中 ,可 能 出 现 这 种 现象 ; .个 输入 问 基 可 能 在 某 - .次 输入 时 被 划 归 一 类 ,而 在 其 
后 的 再 次 输入 时 邯 被 划 归 到 了 另 一 类 。 这 种 现象 与 ARIT 的 稳定 性 是 否 矛 盾 ? 为 什么 ? 

7 委 据 ART 的 性 能 ,请 指出 该 模型 所 适应 的 范围 。 

8.， 如 果 将 本 竟 介 绍 的 基本 ART 模型 扩展 到 * 对 一 个 输入 向 基 , 识 别 层 可 以 用 激发 不 同 的 神经 元 的 组 合 来 
表示 其 所 在 的 类 "的 情况 ,那么 ,ART 的 工作 过 程 应 该 微 哪 些 相应 的 改动 ? 

9. 已 知 在 到 维 空间 中 的 一 个 给 定 范围 内 非 均匀 地 分 布 着 m 个 点 ,试用 ART 实现 对 这 些 点 的 自动 分 类 。 仍 
定点 与 点 之 问 的 距离 用 欧 几 下 德 距离 进行 度量 ,并 要 求 按 虐 离 的 近 近 进行 分 类 :距离 较 近 者 分 为 一 类 ,上 距 离 近 者 
分 人 另 一 类 。 二 维 空间 中 的 点 用 (X,.Y,2Z) 表 示 。 

10. 请 将 练习 题 9 扩展 到 户 维 空 间 上 。 

1 ART 模 开 是 Girossherg 及 其 助手 们 经 过 一 段 时间 的 研究 积累 提出 来 的 ,在 你 了 解 到 此 模型 的 工作 原理 
后 ,请 你 考虑 他 们 研究 工作 的 思路 是 什么 样 的 。 
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